15. 机器学习基石 - Summary - Power of Three
Summary - Power of Three
总结整个课程,发现很多内容数量刚好都是三。
1. Three Related Fields
对比三个相关的领域:
- Data Mining
- Artificial Intelligence
- Statistic
机器学习是学习问题,而不是优化问题,也就是说,机器学习不仅要求数据在训练集上求得一个较小的误差,而且在测试集上也要表现的好(因为模型最终是要部署在实际的场景中,数据也是没有训练过的),即机器学习既要低误差,又要很好地泛化能力,以保证实际的误差与训练误差相差不大。
1) Machine Learning V.S. Data Mining
机器学习与数据挖掘都叫知识发现(KDD Knowledge Discovery in Dataset)。
- 两者是一致的:能够找出的有用信息就是我们要求得的近似目标函数的假设。
- 两者是互助的:ML需要大数据的支持才能保持能“学到东西”。
- 数据挖掘更关注于从大量的数据中的计算问题。
总的来时,两者密不可分。
2) Machine Learning V.S. Artificial Intelligence
AI是通过特定的方法让机器能做出Intelligent的行为,ML属于AI的一个分支,是AI实现的一种方式
3) Machine Learning V.S. Statistic
统计是通过对已知数据的处理,从而推断出未知的事件的属性
所以统计学是实现ML的一种方法,统计学里面有许多实用的工具可以用于证明ML。
2. Three Theoretical Bounds
三个理论基础是保证了机器在满足数据量足够大,且有合适的算法的情况下,可以实现机器学习。
三个理论基础如下:
- Hoeffding Inequity(单一假设确认时使用)
- Multi-Bin Hoffding Inequity(有限多个假设验证时使用)
- VC Bound(无限多个假设训练时使用)
3. Three Linear Models
前面我们讨论的Linear Model 有:
- Linear Classification (PLA, Pocket)
- Linear Regression
- Logistic Regression
具体如图一所示
4. Three Key Tools
3个重要的工具如:
- Feature Transform - 遇到太复杂的模型,可以映射到线性的空间去做处理 (Nonlinear Transform)
- Regularization - 通过加入惩罚项,来降低模型的复杂度 (Ridge Regression)
- Validation - 通过拿出部分数据来作为验证集,用于评估模型,方法(Leave-One-Out Cross Validation, V-Fold Cross Validation
具体如图二所示
5. Three Learning Principles
- Occam’s Razor - 越简单而有效的模型越好!
- Sampling Bias的坏处 - 我们在训练时要保证数据的来源,最好是相互独立的
- Data Snooping坏处 - 尽量先选择模型,然后在去查看数据,然后在训练的过程要保持怀疑的态度
6. Three Future Directions
未来机器学习的方向也分为三种:
- More Transform - 转换也能使得模型更加简单
- More Regularization - 尽可能降低模型的复杂度
- Less Label - 更少的Feature,那么模型将更好
具体如图三所示
Summary
- 总结整个课程
至此,Machine Learning Foundation (机器学习基石)的笔记总结完毕,有部分内容后续补充
Reference
[1] 机器学习基石(台湾大学-林轩田)\16\16 - 4 - Power of Three (08-49)