运维开发网

干货|PRML读书后记(一): 拟合学习

运维开发网 https://www.qedev.com 2020-11-25 08:16 出处:51CTO 作者:机器学习AI
1优美的高斯分布[P29]图1.16很好的描绘了这样表达的优美之处:2极大似然估计的病态拟合3参数-Regularizer4先验分布:高斯分布高斯分布应该算是我们认知中,描绘一切连续型数值不确定性的最基本、最硬派的先验知识了。甭管你是什么妖魔鬼怪,只要你是连续的,不是离散的,先给你套个高斯分布的罪状。当然,钦定高斯分布从数学角度是由原因的,和其优美的数学共轭形式有关。[P98]的练习证明了,高斯似

1

优美的高斯分布

干货|PRML读书后记(一): 拟合学习

干货|PRML读书后记(一): 拟合学习

干货|PRML读书后记(一): 拟合学习

[P29]图1.16很好的描绘了这样表达的优美之处:

干货|PRML读书后记(一): 拟合学习

2

极大似然估计的病态拟合

干货|PRML读书后记(一): 拟合学习

3

参数-Regularizer

干货|PRML读书后记(一): 拟合学习

干货|PRML读书后记(一): 拟合学习

4

先验分布:高斯分布

高斯分布应该算是我们认知中,描绘一切连续型数值不确定性的最基本、最硬派的先验知识了。

甭管你是什么妖魔鬼怪,只要你是连续的,不是离散的,先给你套个高斯分布的罪状。

当然,钦定高斯分布从数学角度是由原因的,和其优美的数学共轭形式有关。

[P98]的练习证明了,高斯似然分布 x 高斯先验分布,结果仍然是一个高斯分布。

(此证明需要熟读第二章关于高斯分布的 150 个公式,需要很好的概率论、线代基础。)

高斯分布在数学形式上有许多便利,比如下面提到的零均值简化版高斯分布,这为贝叶斯方法招来很多

恶评,[P23] 是这样解释的:贝叶斯方法广受批判的原因之一,是因为其在选取先验概率分布上,根据的是

数学形式的便利为基础而不是 先验分布的信度 。

贝叶斯方法讲究推导严谨,公式齐全,对于那些奇怪的、无法用数学语言表达原理的、广布自然界的先验知识,

如Deep Learning思想,自然不会考虑,这也是为什么有人会认为Deep Learning与Bayesian是对着干的。[Quroa]

5

波动性惩罚:简化高斯分布

干货|PRML读书后记(一): 拟合学习

干货|PRML读书后记(一): 拟合学习

干货|PRML读书后记(一): 拟合学习

干货|PRML读书后记(一): 拟合学习

6

稀疏性惩罚:L1 Regularizer

干货|PRML读书后记(一): 拟合学习

干货|PRML读书后记(一): 拟合学习

I、大脑中有1000亿以上的神经元,但是同时只有1%~4%激活,而且每次激活的区域都不一样。

这是生物神经中的稀疏性。

II、稀疏性将原本信息缠绕密集数据给稀疏化,得到稀疏特征表达。比如将实数5,稀疏为一个[1,0,1]向量,

很容易线性可分了。又比如识别一直鸟,只要把噪声给稀疏掉,保留关键部位,最后就有更好的特征表达。

这是特征表达上的稀疏性,实际应用有[稀疏编码][深度神经网络],当然还有我们的生物神经网络。

当然,以上和L1 Regularizer毫无关系,因为它稀疏的姿势错了,要不然还要Deep Learning作甚。

首先,这个稀疏策略没有Adaptive性,它并不会智能地的发现哪里需要稀疏,哪里不需要稀疏。

从数学规划问题角度理解,它就是一个多元的约束条件,至于哪个元倒霉到被约束至0,这个没人能确定。

其次,参数W直接影响着模型拟合能力,对它错误地稀疏0化,会造成严重的欠拟合。

基于以上两点,不能认为L1与L2类似,就认为L1也能缓解过拟合,实际上它更有可能造成欠拟合。

7

L1&L2 Regularizer图形化理解

来自[P146]、[P107].CHS.HIT.马春鹏的有趣配图,似乎能解释为什么L1会直接得到0,而L2却是无限接近0。

干货|PRML读书后记(一): 拟合学习

8

更好地发现特征:Adaptive Represention Regularizer

Hinton组的[Erhan10] 认为Deep Learning的Pre-Training也是一个Regularizer,原因有二:

其一,预训练后参数W的搜索方向,有更大可能从局部最小值中逃逸。

其二,预训练后参数W的搜索方向,让似然函数值变大,但是得到了更好的归纳能力(测试错误率变低)。

第一点是比较神奇的Regularizer效果,即使是身披图灵奖的Bayesian方法,也是无法解释的。

第二点有点像是L2 Regularizer的效果,但是更大可能是与模型内部存有的Attention机制有关。

若是固定Pre-Training之后的参数W,那么Pre-Training等效于一个非线性的PCA,预先注入了

对无标签观测数据的先验知识,即得到了更合理的P(W),这又是Bayesian方法所无法解释的。

9

可靠的稀疏性:Adaptive Sparsity Regularizer

Deep Learning中有两个能够自适应引入稀疏性的方法,[ReLU]&[Dropout]。

I、[ReLU]对神经元的输出稀疏,而神经元的输出显然是可变的。

II、[Dropout]是对神经元的输出稀疏,不过方式有点特别,采用随机概率来决定,而不是自适应方法。

但这并不能表明[Dropout]得不到自适应稀疏,它的自适应恰恰来自于随机本身。

由于随机性,每次网络结构都不同,这压迫了参数W朝一个稳定方向调整。

如2.1.2分析,[I]可以认为是发现了稀疏特征,替代L1。[II]可以认为是类似生物神经网络的稀疏激活机制,替代L2。

这两者并不冲突,所以常规Deep Learning模型中,[I]+[II]是标配手段。

博客园:http://www.cnblogs.com/neopenx/p/4820567.html

推荐阅读:

精选干货|近半年干货目录汇总

干货|台湾大学林轩田机器学习基石课程学习笔记5 -- Training versus Testing

干货|MIT线性代数课程精细笔记[第一课]

           欢迎关注公众号学习交流~          

干货|PRML读书后记(一): 拟合学习

欢迎加入交流群交流学习

干货|PRML读书后记(一): 拟合学习

扫码领视频副本.gif

0

精彩评论

暂无评论...
验证码 换一张
取 消

关注公众号