机器学习的整体流程

华为云HCIA-AI学习记录003-机器学习的整体流程(上)

机器学习基本概念-数据集

数据集：在机器学习任务中使用的一组数据，其中的每一个数据称为一个样本。反映样本在某方面的表现或性质的事项或属性称为特征。
训练集：训练过程中使用的数据集，其中每个训练样本称为训练样本。从数据中学得模型的过程称为学习（训练）。
测试集：学得模型后，使用其进行预测的过程称为测试，使用的数据集称为测试集，每个样本称测试样本。
数据对于模型来说就是至关重要的，是模型能力的天花板，没有好的数据，就没有好的模型。
华为云HCIA-AI学习记录003-机器学习的整体流程(上)
数据清理：填充缺失值，发现并消除造成数据及异常点。
清理工作量：
60% 清理和组织数据
19%收集数据集
9%在数据中发掘模式
4%优化模型
5%其他
3%重塑训练数据集
大部分的机器学习模型所处理的都是特征，特征通常是输入变量所对应的可用于模型的数值表示。
收集得到的数据需要经过预处理后才能够为算法所使用，预处理的操作主要包括以下几个部分：
数据过滤、处理数据缺失、处理可能的异常、错误或者异常值、合并多个数据源数据、数据汇总。
数据降维：简化数据属性，避免维度爆炸。
数据标准化：标准化数据来减少噪声，以及提高模型准确性。

数据的转换

对数据进行初步的预处理后，需要将其转换为一种适合机器学习模型的表示形式，以下是一些常见的数据转化的形式。
在分类问题中，将类别数据编码成为对应的数值表示（哑编码）
数值数据转换为类别数据以减少变量的值（对年龄分段）
其他数据
从文本数据中提取有用的数据（一般使用词袋法、TF-IDF或者word2vec）
处理图像数据（颜色空间、灰度化、几何变化、haar特征等，图像增强）
特征工程
对特征进行归一化、标准化，以保证同以模型的不同输入变量的值域相同
特征扩充：对现有变量进行组合或转换以生成新特征，比如平均数。
特征选择的必要性。
通常情况下，一个数据集当中存在很多种不同的特征，其中一些可能是多余的或者与我们要预测的值无关的。
特征选择技术的必要性主要体现在：
简化模型，使得模型更容易被解释，也可以避免维度爆炸的问题，还可以减少训练时间，可以提示模型泛化性。
特征选择的方式有：
过滤法Filter、包装器（wapper）
过滤法（filter）
在选择特征的时候是独立的，与模型本身无关。
华为云HCIA-AI学习记录003-机器学习的整体流程(上)
通过评估每个特征和目标属性之间的相关性，这些方法应用一个统计度量来为每个特征赋值。然后根据分数对这些特性进行排序，这可以用来帮助保留或消除特定特征
常见的方法有：
皮尔逊相关系数
卡方系数
互信息
过滤法的局限
过滤方法倾向于选择冗余的变量，因为它们没有考虑特征之间的关系。
包装器（wapper）
华为云HCIA-AI学习记录003-机器学习的整体流程(上)
包装器（wapper）方法使用一个预测模型来对特征子集进行评分。
包装器方法将特征选择问题视为一个搜索问题，在这个问题中，将评估和比较不同的组合。在这里，预测模型用于评估特征的组合的工具，根据模型的准确性进行评分
常见的方法
特征递归消除法
包装法的局限
因为包装器方法为每个子集训练一个新模型时，他们的计算量非常大。
其特征选择的方法通常为特定类型的模型提供了性能最好的特征集。导致整个模型泛化性不理想。
华为云HCIA-AI学习记录003-机器学习的整体流程(上)
嵌入法（Embedded）的方法将特征选择作为模型构建的一部分。
常见的嵌入式特征选择方法是正则化方法。正则化方法也称为惩罚方法，它在优化预测算法时引入额外的约束，使模型的复杂度降低，也就是减少了特征的数量。常见的方法
LASSO回归——》loss+L1
RIDGE回归——》loss+L2

华为云HCIA-AI学习记录003-机器学习的整体流程(上)

机器学习的整体流程

机器学习基本概念-数据集

数据的转换

相关推荐