聊一聊机器学习中的频率学派及贝叶斯学派(一)

频率学派与贝叶斯学派的区别在于“概率”这个概念的认识以及应用上。
频率学派认为概率是实验中事件发生频率的极限值。也就是说,经过无数次重复试验,事件发生的频率与该事件发生的概率就相等了。所以,在频率学派眼中,概率是一个确定值。
那么对概率的认识是如何与模型相关联的呢?让我们首先来看抛硬币的例子:假设抛一枚硬币,正面向上的概率为P,抛掷了1000次,正面向上的次数出现了600次。任何一个人都可以很有信心的说:抛掷该硬币,正面朝上的概率为0.6。那么换个角度来看,抛掷硬币这个实验结果服从Bernoulli分布,其参数为P,我们现在抛掷了1000次硬币,其中600次正面向上,那么分布的参数P是多少?这可不就是机器学习中对模型的参数估计吗。
参照抛掷硬币的例子,这句话就会很好理解:频率学派认为模型参数是固定的(P是固定的),数据集中的每条数据其实是这固定参数P下一次独立重复实验的结果(正面朝上or反面朝上)。所以,频率学派认为模型参数是固定的,数据是随机的。由于实验不可能无穷无尽的做下去,其意思就是数据总归是有限的,所以数据集是总体中的一个抽样这个也应该不难理解。现在根据当前数据集对模型参数进行估计,就是利用样本去估计整体。所以必然会与真实参数产生误差。来源于同一分布的不同样本估计出的参数也会不一样,因为数据集本身就是随机分布的,估计出的参数当然也是随机分布的。那这可就麻烦了,不同的数据估计参数在“飘”,我们如何知道估计参数与真实参数之间的偏离大小呢?频率学派引入了“置信区间”和“置信度”两个概念去衡量:真实参数会以置信度(α \alphaα)的概率落在根据样本计算出的置信区间范围内。关于置信区间及置信度这两个部分更形象的描述可以看马同学的博客。前面我们只说到要去估计参数,而没说如何去估计参数呀?频率学派认为:当前这个数据集既然摆在我们面前了,那肯定是因为这些数据样本联合出现的概率最大,优化模型估计参数使得该数据集整体最有可能出现,于是乎最大似然估计就诞生了。
前文说到,频率派思想核心是“参数固定,数据随机”,将该思想融入到机器学习中得到的就是统计机器学习。统计机器学习的核心特征是:对参数估计的所有信息都来自于数据,最终得到确定的参数估计值。
这篇文章只是以叙述性尽量以聊天式风格去讨论机器学习中频率派一系列概念。但是其中的每一个概念都只是提及,具体的原理细节还是需要小伙伴们细细体会。

作者:admin,本文链接:https://jiqixuexi.org/587.html

联系我们

QQ 1969801705

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息