华为云HCIA-AI学习记录003-机器学习的整体流程(上)

机器学习的整体流程

华为云HCIA-AI学习记录003-机器学习的整体流程(上)

机器学习基本概念-数据集

数据集:在机器学习任务中使用的一组数据,其中的每一个数据称为一个样本。反映样本在某方面的表现或性质的事项或属性称为特征。
训练集:训练过程中使用的数据集,其中每个训练样本称为训练样本。从数据中学得模型的过程称为学习(训练)。
测试集:学得模型后,使用其进行预测的过程称为测试,使用的数据集称为测试集,每个样本称测试样本。
数据对于模型来说就是至关重要的,是模型能力的天花板,没有好的数据,就没有好的模型。
华为云HCIA-AI学习记录003-机器学习的整体流程(上)
数据清理:填充缺失值,发现并消除造成数据及异常点。
清理工作量:
60% 清理和组织数据
19%收集数据集
9%在数据中发掘模式
4%优化模型
5%其他
3%重塑训练数据集
大部分的机器学习模型所处理的都是特征,特征通常是输入变量所对应的可用于模型的数值表示。
收集得到的数据需要经过预处理后才能够为算法所使用,预处理的操作主要包括以下几个部分:
数据过滤、处理数据缺失、处理可能的异常、错误或者异常值、合并多个数据源数据、数据汇总。
数据降维:简化数据属性,避免维度爆炸。
数据标准化:标准化数据来减少噪声,以及提高模型准确性。

数据的转换

对数据进行初步的预处理后,需要将其转换为一种适合机器学习模型的表示形式,以下是一些常见的数据转化的形式。
在分类问题中,将类别数据编码成为对应的数值表示(哑编码)
数值数据转换为类别数据以减少变量的值(对年龄分段)
其他数据
从文本数据中提取有用的数据(一般使用词袋法、TF-IDF或者word2vec)
处理图像数据(颜色空间、灰度化、几何变化、haar特征等,图像增强)
特征工程
对特征进行归一化、标准化,以保证同以模型的不同输入变量的值域相同
特征扩充:对现有变量进行组合或转换以生成新特征,比如平均数。
特征选择的必要性。
通常情况下,一个数据集当中存在很多种不同的特征,其中一些可能是多余的或者与我们要预测的值无关的。
特征选择技术的必要性主要体现在:
简化模型,使得模型更容易被解释,也可以避免维度爆炸的问题,还可以减少训练时间,可以提示模型泛化性。
特征选择的方式有:
过滤法Filter、包装器(wapper)
过滤法(filter)
在选择特征的时候是独立的,与模型本身无关。
华为云HCIA-AI学习记录003-机器学习的整体流程(上)
通过评估每个特征和目标属性之间的相关性,这些方法应用一个统计度量来为每个特征赋值。然后根据分数对这些特性进行排序,这可以用来帮助保留或消除特定特征
常见的方法有:
皮尔逊相关系数
卡方系数
互信息
过滤法的局限
过滤方法倾向于选择冗余的变量,因为它们没有考虑特征之间的关系。
包装器(wapper)
华为云HCIA-AI学习记录003-机器学习的整体流程(上)
包装器(wapper)方法使用一个预测模型来对特征子集进行评分。
包装器方法将特征选择问题视为一个搜索问题,在这个问题中,将评估和比较不同的组合。在这里,预测模型用于评估特征的组合的工具,根据模型的准确性进行评分
常见的方法
特征递归消除法
包装法的局限
因为包装器方法为每个子集训练一个新模型时,他们的计算量非常大。
其特征选择的方法通常为特定类型的模型提供了性能最好的特征集。导致整个模型泛化性不理想。
华为云HCIA-AI学习记录003-机器学习的整体流程(上)
嵌入法(Embedded)的方法将特征选择作为模型构建的一部分。
常见的嵌入式特征选择方法是正则化方法。正则化方法也称为惩罚方法,它在优化预测算法时引入额外的约束,使模型的复杂度降低,也就是减少了特征的数量。常见的方法
LASSO回归——》loss+L1
RIDGE回归——》loss+L2