【机器学习】基本概念
1.数据
以一个表格为例子
整个数据 为数据集
一行为 一个样本
一列为一个特征
最后一列为表达样本的一个特征,也就是标记
如图 表示的是一个特征空间
而通过两者之间的区别 我们可以进行分类
分类任务的本质就是在特征空间划分
而在高维度的空间同理,一般我们都是通过低维度然后再推广到高纬度。
2.特征可以很抽象
数据点
3.机器学习的基本任务
分类和回归
分类任务可以分二分类和多分类,
二分类,判断是否垃圾邮件,股票涨跌
多分类,数字识别,图像识别,风险评级
多标签分类, 比多分类更复杂的存在
对于多分类来说,很多复杂的问题都可以转换成多分类问题
对于多分类,有一些算法只支持完成二分类,但是多酚类可以转换成二分类任务,有些算法天然可以完成多分类任务
回归任务
结果是一个连续数字的值,而非一个类别
比如 房屋价格,市场分析,学生成绩,股票价格等等
一般来说回归任务可以简化分类任务
对于机器学习,
根据不同的模型输出的值的不同来判断分类还是回归。
4.监督学习,非监督学习,半监督学习和增强学习
监督学习
给机器的训练数据 拥有标记或者答案
图像已经拥有了标定信息
银行已经积累了一定的客户信息和他们信用卡的信用情况
市场积累了房屋的基本信息和最终成交的金额
大部分算法都属于监督学习
- k近邻
- 线性回归和多项式回归
- 逻辑回归
- SVM
- 决策树和随机森林
非监督学习
给机器的训练数据没有任何标记或者答案
丢与没有标记的数据进行分类 - 聚类划分
非监督学习的意义
对数据进行降维处理
特征提取: 信用卡的信用评级和人的胖瘦无关
特征压缩:PCA
划一条直线,整体变成一条直线,变成一维的一点
非监督学习的意义
降维处理的意义:方便可视化
异常检测
半监督学习
一部分数据有标记或者有答案,另一部分数据美誉哦
更常见:各种原因产生的标记缺失
通常都先使用无监督学习手段对数据做处理,之后采用监督学习手段做模型的训练和预测
增强学习
根据周围的环境的情况,采取兴趣,根据采取行动的结果,学习行动方式
机器学习的其他分类
在线学习和批量学习(离线学习),参数学习和非参数学习
批量学习
优点:简单
适应环境需要定时重新学习,代价大,有时候不能完成时间不够
在线学习
及时反映新的环境变化,但新的数据可能不准确,需要加强对数据监控,适用于数据量巨大,无法批量学习的环境
参数学习
做假设,一旦学习到参数就不需要原来的数据集
非参数学习
不对模型机型过多的假设
非参数不等于没参数
5.数据即是算法?
数据驱动很重要,收集更多数据,可以提高数据质量,代表性,特征
6.奥卡姆的剃刀
简单就是好
7.没有免费的午餐定理
任意两个算法,他们的期望性可能是相同的。
具体到某个特定问题,有些算法可能更好
但没有一种算法,绝对比另一种算法豪
脱离具体问题,谈那个蒜贩豪是没有意义的
在面都iyig而具体问题的时候,尝试使用多种算法进行对比试验,是有必要。