人工智能第1周(1-3节)
目录
一、一个Kaggle竞赛优胜解决方案
1、在Kaggle竞赛中,优胜的解决方案具备以下特点:
- 特征工程
- 模型融合
- 在多层上进行的学习。第一层:FM、GBDT。 第二层:GBDT、RF、VW、FM。
- 多种 相互之间可以互补的模型 进行组合。GBDT、RF、VW、FM进行组合。
2、经验
- 基础模型非常重要。
如logist回归(线性模型)就是基础模型,而FM(因子分解机)和VM(????)就是它的变种。
- 集成学习模型 单模型性能好,比线性模型还好。
如GBDT,在2015年时,只用GBDT就能在一个复杂的竞赛中取得很好的成绩。
- 对待特定的问题,可以使用特别的模型。
如FM。
- 模型融合非常重要
3、流程总结
- 原始数据(Raw Features)进行特征工程。
- 考虑用单个模型去试下效果。
- 进一步考虑用集成学习模型来提升效果。
- 多找一些 单个还不错的模型,考虑模型融合。
二、机器学习任务类型
1、什么是监督学习?什么是非监督学习?
监督学习:数据里面有y、有目标、有老师监督。
从训练集中 学习到一个x->y的映射f,从而对测试集中的x进行预测f(x)
非监督学习:数据里面没有y,或者y是隐藏的(y称为隐含变量)。
2、任务分类
- 半监督学习
部分带有标签y,另一部分不到。
这是因为标注是一件非常困难的事情,比如说医疗数据,标签需要专业人士来标注,但是如果全部标注的话,将会非常的昂贵。所以,仅仅会标注部分标签。
希望利用少数的有监督学习,和很多不带标签的样本,得到一个较好的模型。
- 增强学习
具有一个回报函数。输入一个x,返回一个y。然后我们对y进行评价,给出一个反馈,正反馈就是奖励,负反馈就是惩罚。通过无限次的迭代,最终我们的学习目标会找到一个回报最大的路径。
AlphaGo用到的就是增强学习。由其是AlphaGo Zero只用到了增强学习,而没有用专家库。
3、损失函数
- 度量模型的预测值和真实值之间的差异,loss function。
三、对鱼进行分类
1、这一小节仅仅演示 实际中的开发流程
- 特征工程,提取特征,如:长度、亮度(颜色)、鳍、鳃等。
- 选择长度作为特征进行分类,得到一个预测的y。找到一个决策边界,求得最小化误差(损失函数)。
- 选择亮度(颜色)作为特征进行分类,预测对应的y。找到一个决策边界,求得最小化误差(损失函数)。
- 选择长度、亮度(颜色)作为特征进行分类,预测对应的y。找到一个决策边界(线性分类),求得最小化误差(损失函数)。看看效果是否更好(当维度较低时 ,可视化比较重要)。
- 考虑非线性分类是否能更好。
2、特征决定了机器学习的上限,而模型只能逼近这个上限。