机器学习基石第1周
機器學習基石上 (Machine Learning Foundations)---Mathematical Foundations
创建者 国立台湾大学 林軒田
Welcome to 機器學習基石上 (Machine Learning Foundations) ---Mathematical Foundations! You are joining thousands of learners currently enrolled in the course. I'm excited to have you in the class and look forward to your contributions to the learning community.
To begin, I recommend taking a few minutes to explore the course site. Review the material we’ll cover each week and preview the assignments you’ll need to complete to pass the course. Click Discussions to see forums where you can discuss the course material with fellow students taking the class.
If you have questions about course content, please post them in the forums to get help from others in the course community. For technical problems with the Coursera platform, visit the Learner Help Center.
Good luck as you get started, and I hope you enjoy the course!
第 1 周
阅读材料:NTU MOOC 課程問題詢問與回報機制
这需要大约 1 min。完成后, 请继续学习并尝试提前完成本周的内容。
第一讲:The Learning Problem
视频(1h10min)+阅读材料(41min)
1. The Learning Problem
各位修習課程的同學們大家好, 非常歡迎大家修習 NTU MOOCs 所開設的課程,在修課中若有任何問題,我們鼓勵您至討論區進行提問。
若等待時間過長未有回覆或有課程內容問題回報(如字幕錯誤、課程內容勘誤等),歡迎來信至 [email protected] NTU MOOC 公務信箱,我們將儘速協助您解決問題,請勿直接寄信至教師或助教的信箱,感謝您們的配合,預祝您修課愉快!
NTU MOOCs 製課團隊 敬上
2. Course Introduction
机器学习:理论(数学)+实物(应用),从基础切入,用听一个故事的角度来看这个课(stroy-telling)。
什么时候用得上ML,为什么ML有用,ML的基本方法,ML怎么样才能学到东西,怎样让ML学得更好。
前8周(Fundation)+后7周(Techniques)。
3. What is Machine Learning
什么时候要用ML?资料-->CPU或电脑处理-->变成有用的技巧。
什么是学习?从观察(听觉、视觉、触觉...)出发-->内化转化-->变成有用的技巧。ML用电脑来模拟类似的过程。
技巧:某一种表现的增进。比如预测股票。
如何辨识树?写100条规则。想想:我们小时候是这样辨识树的吗?我们是靠自己观察过很多树之后,内化成自己的技巧,去辨识很多的树。让机器自己去分析资料,自己学会怎么去做这些事情。
ML的应用: (1) 有的系统我们想不到怎么把规则(比如视觉、听觉的辨识) 详细地写下来,需要机器透过学习和跟环境的互动来达到更好的表现. (2)high frequency trading超级超短线,在10s 20s 就要从股市的蛛丝马迹去分析买还是卖。(3)服务个性化的使用者,让机器去学习它们的使用历程。
ML的三个关键: (1) 要有某一种效能/表现(有潜藏的模式,有某些目标) 能够增进. (2) 有这样的规则但是我们不知道怎么把它写下来。(3)ML的一切都是从资料开始的,所以我们要资料。
4. Application of Machine Learning
食:从Twitter上的资料学习,告诉我们去某家餐厅吃饭食物中毒的概率。
衣:从相关的衣服销售数字和顾客的调查学习,设计一个系统,它可以推荐顾客怎么搭配才好看(符合顾客的喜好)。
住:从房子的建筑形态特征耗能等资料,预测盖好这个房子后的能源消耗。为以后的建筑提供耗能的行为规范。
行:自动车能够自动辨识交通标识,用ML来提升标识辨识的准确率。
教育:线上的系统让学术答题,从答题过程,学生答题的历史纪录还有题目这些资料学习到学生会什么不会什么,以后就给学生不是很熟练的题目,已经会的就少做一点。****,资料反推学生程度、题目难度。
娱乐:recommender system,推荐电影。资料:使用者的观影历史纪录和评价记录。
Netflix 比赛:你设计的ML的表现比他强10%就有100万美金的奖金。
Yahoo Music:ML如果能从这些资料里面学习的话,就可以学习到我们的喜好。 KDDCup比赛。
可能的ML的模型: 电影的特征,里面有某个演员,我对电影的喜好表现为数字的高低,圆圈的大小。把一连串的特征数字做一个内积,得到最后的评分rating。ML从最后的rating反推回人的特征,这部电影的特征。
5. Components of Machine Learning
抽象的描述-->具体的ML
银行决定发不发信用卡给某一个customer:银行手里有申请人的资料(年龄,性别,年收入...)。学习:银行怎么样发卡可以让它的获利最多。
资料叫做x(输入),想要机器告诉我们的答案叫做y(输入),可能学到的东西叫做target function,用f(函数)代表。f是从X集合到Y集合最理想的想学习到的那个东西。
资料用D来代表,函数我们叫g。 从资料Xn,Yn(D)出发,最后ML告诉我们g。 g跟f越小越好(希望ML拿到的这个g和f的差异越小越好)。f是未知的。
ML要做的事: 从它看到的资料里,从Hypothesis Set这个集合里找一个最好的演算法出来。从D和H中得到g。ML会拿出一个它觉得最好的(但是不是最好的?)。
ML就是从资料出发,算出一个假说,一个hypothesis,我们叫做g。这个g要接近我们心里最渴望的那个f,这个f是用来产生资料,但是我们不知道那个f
6. Machine Learning and Other Fields
ML是我们希望用资料去找出一个Hypothesis这个假说g,然后它跟我们想要的这个目标f很像。资料探勘希望用资料去找出一些有趣的事情。传统的资料探勘希望在资料库里的资料,进行很有效率的计算。
人工智慧是我们希望电脑做出sth,sth shows intelligent behaviour。ML是实现人工智慧的一种方法。
我们设计演算法让机器学习去分析这个树状图,这是一种方式。我们设计演算法让机器去从资料里面学到怎么下棋,这是另一种方式。
统计实际上是实现ML的一种方法。可以用统计的工具来实现ML。在统计学里,很多事我们会想办法写下一些假设,最后有可以证明的结果。ML重视怎么算出来,而不只是这个数学上的结果怎么样。