贝叶斯决策理论引入篇
这段时间被贝叶斯强大的概率分析方法所折服,虽然之前也在利用贝叶斯理论去做实验但是都是停留在表面,从头梳理贝叶斯理论真的让人学到很多。 我们上次把贝叶斯公式入门理解说了,也算是进了贝叶斯分析的大门了,今天我们一起来看看贝叶斯公式的扩展应用中比较有名的贝叶斯决策理论的最基础部分。
什么是贝叶斯决策
贝叶斯决策(Bayesian Decision Theory)就是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正, 最后再利用期望值和修正概率做出最优决策。贝叶斯决策属于风险型决策,决策者虽不能控制客观因素的变化,但却掌握其变化的可能状况及各状况的分布概率, 并利用期望值即未来可能出现的平均状况作为决策准则。
贝叶斯决策理论方法是统计模型决策中的一个基本方法,其基本思想是:
- 已知类条件概率密度参数表达式和先验概率。
- 利用贝叶斯公式转换成后验概率。
- 根据后验概率大小进行决策分类。
贝叶斯决策数学表示
想要很好的理解贝叶斯决策是要建立在有了一定的概率论和数理统计知识的前提下的,我们本篇用基础的概念性数学描述一下。
行动空间
行动空间(通常用A来表示)是某项实际工作中可能采取的各种“行动”所构成的集合。贝叶斯派系注重各个已有信息的代入来验证事件发生的假设, 用模型的理念分析就是比较注重模型中的各个参数,所以通常而言我们想要做出的“行动”就是“决定模型的参数”。因此我们通常会将行动空间取为参数空间, 亦即\(A=\Theta\)。
决策
决策(通常用\(\delta(\tilde X)\)来表示)是样本空间\(X\)到行动空间\(A\)的一个映射。换句话说,对于一个单一的样本\(\tilde X(\tilde X\in X)\), 决策函数可以利用它得到\(A\)中的一个行动。需要注意的是,这里的样本\(\tilde X\)通常是高维的随机向量:\(\tilde X=(x_1,...,x_N)^T\); 尤其需要分清的是,这个(以及之后提到的所有)\(\tilde X\)其实是一般意义上的“训练集”、\(x_i\)才是一般意义上的“样本”。这是因为本篇主要在叙述数理统计相关知识, 所以在术语上和机器学习术语会有所冲突,需要分辨清它们的关系。
损失函数
损失函数(通常用\(L(\theta,a)=L(\theta,\delta(\tilde X))\)来表示)用于衡量当参数是\(\theta\)(\(\theta\in\Theta\),\(\Theta\)是参数空间) 时采取行动\(a(a\in A)\)所引起的损失。
决策风险
决策风险(通常用\(R(\theta,\delta)\)来表示)是损失函数的期望:\(R(\theta,\delta)=EL(\theta,\delta(\tilde X))\)
先验分布
先验分布描述了参数\(\theta\),在已知样本\(\tilde X\)中的分布。
平均风险
平均风险(通常用\(\rho(\delta)\)来表示)定义为决策风险\(R(\theta,\delta)\)在先验分布下的期望:
\[\rho(\delta) = E_\xi R(\theta,\delta)\]贝叶斯决策
贝叶斯决策(通常用\(\delta^*\)来表示)满足:
\[\rho(\delta^*)=\inf_\delta\rho(\delta)\]换句话说,贝叶斯决策\(\delta^*\)是在某个先验分布下使得平均风险最小的决策。这个过程其实就是将我们的损失函数通过更新计算内部的参数\(\theta\) 来达到最小化损失函数的目的,此时在先验分布下平均风险也就达到最小,从而此时得到的决策是最优的。
如何将贝叶斯决策和贝叶斯公式结合起来呢?怎么确定这个过程是合理的?这中间其实还有很多的路要走,我也在充分扩展自己对这块的理解, 接下来几天我们一起来学习以后的知识。
谢谢观看,希望对您有所帮助,欢迎指正错误,欢迎一起讨论!!!