从 Duda 的书《Pattern Classification》整理而来的一个轮廓,希望能对理解贝叶斯估计有所帮助。
新的更宏观的来龙去脉可以看新的一篇:从参数估计到线性判别函数

1. 贝叶斯决策

靠天

首先我们使用先验来预测,比如海里捕捞的鱼是三文鱼 还是骨鱼.
可以简单认为大海里只有均匀分布的骨鱼和三文鱼,并且鱼有个总量,那么概率可以简单以数量得到,分别为 .

决策:若 则认为鱼是三文鱼。
这种判断把所有鱼都认为是一种,那么正确率显然只会有 那么多。

条件概率

这种做法简单粗暴,效果不是很好。如果我们多知道一点信息,考虑鱼的特征,例如长度、鱼身颜色,引入特征 .

决策:若 则认为是三文鱼。这里 是已知的信息。

然而 并不是那么好算,使用贝叶斯公式处理。

这样只用比较右边大小就可以了。分母一样可以略去。

其他

从略一提。

  • 对一个决策方法可以用最小错误率、最小风险等来衡量
  • 可以设计一些判别函数来表示决策
  • 似然和先验用正态密度有一些性质
    • 等密度点为椭圆,轴由协方差矩阵规定
    • 白化变换化椭圆为圆

2. 最大似然估计 MLE

以三文鱼类为例,先验和似然的具体形式实际并不知道的。
假设知道分布的形式 ,最大化似然为一种估计参数方式。

从该分布中 draw 一个样本集合 ,再假设知道是独立同分布,则有

所得 就是 MLE 估计值.

可以从众多分布之中找到一个似然最大的可能分布。数据越多,似然函数的形状越窄

顺便一提 MAP 估计则是 .

若模型错误,例如被估计的模型为 而实际为 ,MLE 估计的最优未必会比依然用错误模型的非“最优”参数工作得好.

3. 贝叶斯估计 Bayesian Estimation

我们需要知道的是 ,实际上很难知道这是个什么密度形式,而如果假设知道它是什么固定的分布,但参数不知道,即 ,这时就能处理.

这时 是概率密度的变量本身,而不再是模糊的函数。

从该分布中 draw 一个样本集合 ,再假设知道是独立同分布.

贝叶斯把参数当成有分布的随机变量,而 MLE 把参数当成一个定值。
一旦知道 ,似然部分的分布是已知的,故只需要求 部分,同样使用贝叶斯公式好算。这里虽然好像回到了最大似然类似的形式上,但各部分的意义完全不同了,尤其 也是一个随机变量。

分母的归一化因子放到前面不管它。右边都是为未知的分布,都假设它们是一维正态,且方差及 都已知。即

.

代入前面可以推得

显然这可以凑成正态密度的形式。

最后可以得到

观察右边的性质:

  • 假设 时,就是似然和先验的均值的加权平均。回忆 是先验的分布的方差。
    • 越大或者说远超过 时,表示我们对先验的分布方差就越大,就越不确信先验的均值是多少,因此所得估计就越倾向于似然的均值。
    • 则说明先验非常准,我们完全信任先验,似然的均值也就无所谓了。
  • 而如果 值增加,我们对似然的均值就会越信任,因此就用 除以之,得到一个倾向于似然的权重。

若是多元分布的情况也类似。

4. 总结

最后,回顾一下两个估计的区别,最初从后验出发(假设先验与数据集无关):

问题就转化为有了数据集怎么求密度函数,这里我们只考虑一个类的密度函数、一个类的数据集,那么记号可以进一步简化,并用贝叶斯公式变换:

到这里,我们可以比较清晰地看出区别了:

  1. 在 MLE 方法里,我们假设参数是固定但未知的,因此上面积分没有意义,参数也只需要用 来求出概率最大的那个参数值,也就等价于求最大似然估计值
  2. 在贝叶斯估计中,我们还进一步假设参数不是固定的,而是一个随机变量,但一旦确定下来,密度函数的形式也就随之确定。

因此,贝叶斯估计中问题进一步转换,变成要求 的估计,用贝叶斯公式将其展开后,进一步假设参数的可能分布,以及参数确定后密度函数的分布形式,才能继续推导下去。