台湾大学林轩田《机器学习基石》学习笔记第1讲——The Learning Problem
选择台湾大学林轩田《机器学习基石》这门课做为自己入门第一课,主要有如下几点考虑:
1.中文授课,英文资料,可以快速地理解并且对各种英文术语不陌生;
2.针对新入门者,特别是非计算机科班出身,课程通俗易懂;
3.Coursera上有时间安排作业及讨论,作为工作之余学习很方便;
一、Course introduction
课程链接:https://www.coursera.org/learn/ntumlone-mathematicalfoundations/home/welcome
二、What is machine learning?
类比是很好的学习方法,通过对比人的学习过程,引出机器学习的输入输出。最大的不同在于人学习的出发点是观察,而机器是数据。
机器学习的过程就是从数据(data)出发,然后经过机器的计算(Algorithm)之后,最后获得某一种表现的增进(improved performance measure),机器学习的三个要素。
这里举了一个辨认树的方法,人可以通过观察很轻易地就进行判断这是一棵树,但如果要让机器来进行辨认的话,那么势必需要把树的特征一条一条记录下来,写进代码,让机器通过对这些特征进行一一对比。这样做首先对特征的人类语言描述本身就是一件比较难以精确完成的事,其次还要将这些描述再转化为机器可识别的语言更难以精确完成,如果要识别的树不止一种那么工作量将难以想象。因此让机器自己通过对大量的树的图片进行分析学习,学会判断识别将会有很大的效率和质量提升。
三、Components of Machine Learning
这里有个概念需要注意,机器学习的目的不是简单地获得一个单一的输出y,而是通过对一堆数据(x,y)来学习一个g(x–>y)的skill来取代理想的目标函数f,f是未知的,但我们希望g能够越接近f越好。
这里有几个概念如下:
- f:未知的目标函数,机器学习的主要目的就是找到一个方法无限接近这个目标函数
- D:提供给机器进行学习的训练样本
- H:假说集合(hypothesis set),为了达到机器学习的目的,提出了各种可能的hypothesis备选项的集合
- A:学习算法,通过H中的各项hypothesis进行选择优化,找出一个最接近f的hypothesis g
- A和H共同组成 learning model,这个概念在以后的学习很重要
四、Machine Learning and Other Fields
这里分别对比说明了ML和其他三个领域的区别与联系:
- 当ML和DM的目标是一致的话,可以认为ML=DM;
- 更多的情况下,运用DM的技术来帮忙ML获取更好的效果,反之亦然;
- 传统的DM更关注与大量数据的获取和分析;
- 因此这两个领域非常密不可分,需要都掌握。
- ML是实现AI的一种方法!
- 统计是实现ML的一种方法!
- 统计学上有很多的工具可以提供给ML使用。
五、总结
本讲重点是ML的定义框图,包含f、D、H、A、g的概念及其关系,理解f为什么是未知的很重要,还有g怎么样得到?ML的应用场景很多,笔记中没有体现,有兴趣可以再温习一下视频讲义。另外从ML和DM/AI/Statistics的关系,就知道要学好ML任重道远,数学基础和方法工具需要扎实。