前一篇的一个补充提纲,实在不知道怎么改前一篇只好另写一个.

对一个决策理论来说,我们主要的想法是看一个样本应该分到某个类. 我们以判别函数来定义它,比如两类 1 和 2 类就有判别函数 .

一般就看谁的值大,我们就觉得分到那个类里. 当我们不知道 的任何信息时, 可以直接用常识,比如 1 类和 2 类的全部概率 .
即定义

这样错误率会很高,于是我们考虑用 的已知信息即它的特征.
重新定义并应用贝叶斯公式

依然是用到的常识,但是新的一项 就似乎 要求我们知道 的真正密度.

但真实的密度我们真不知道. 不过我们预先收集了这个密度中生成的一些样本 即 ,并且假设它们是 i.i.d.
不失一般性,这里可以假设样本都是同一类的,这样可以省去对应的下标和密度的下标.

于是有 MLE 方法:我们假设知道密度的形式,只是某个参数不知道,那么就求参数.
我们已经有了一堆样本,某个参数可以让我们得到这些样本的”可能性”(似然)最大, 就以该参数值作为我们对真实参数的一个估计.

另有贝叶斯方法: 我们知道也假设密度的形式在知道某些参数后就确定了, 也要估计参数. 但是参数是一个随机变量,也是有分布的.
我们相当于改而求密度的边缘分布,把所有的参数可能性取值积分掉:

而我们已经假设出 的具体形式,比如正态, 就又能求得估计了.

重新回到开头的式子:

前面都是假设右边第一项密度是某种已知形式,通过把样本集合引入进来,再估计出参数值. 也有无参数的方法来得到密度函数, 如 KNN 和 parzen window 等,利用已有数据集,在特征空间上直接估计某块区域的密度,并没有求某个参数的值,而是直接把所输入的 代进来,去求属于它的概率. 一般工程实现上可能需要对样本集建好索引,因为我们没有参数,每次分类都是需要这些样本数据来判断的.

同时如果我们直接建模判别函数 ,而不知道也不关心原本的密度形式是什么,那么 线性判别函数就是一种候选办法. 比如直接用线性模型并人工制造一些特征来训练参数. 这里稍微有点混淆,如果线性判别函数恰好也是我们假设的密度函数(甚至还是 在真实世界的概率密度),那么我们就可以在相同意义上讨论线性模型. 但如果真实的世界不是线性模型,那除非我们能找到各种扭曲的特征,否则可以预见一个模型的分类能力肯定是有个上限的,并且这个天花板还是小于 100% 的.