机器学习机基础总结(一)数据清洗
数据清洗
Pandas Fuzzy-Levenshtein distence
Fuzzywuzzy提供了语言的模糊查询或者替换等
PCA主成分分析
PCA主成分分析算法(Principal Components Analysis)是一种最常用的降维算法。能够以较低的信息损失(以样本间分布方差衡量)减少特征数量。
PCA算法可以帮助分析样本中分布差异最大的成分(主成分),有助于数据可视化(降低到2维或3维后可以用散点图可视化),有时候还可以起到降低样本中的噪声的作用(丢失的信息有部分是噪声)。
PCA分析的解释
这里以最大方差的理论对PCA算法进行分析。
从图像上来看 对于一个二维的特征值矩阵。每个点表示一个样本点。
我们可以设定一条直线表示我们所指定的主要方向向量。
对于两条直线,哪条更能表示特征的主要方向呢?我们做将每个点做一个垂直线得到在直线上的投影。在直线上投影的特征点中之间的方差越大表示这个方向为主要方向。
从数学上看如何得到最大的方向向量
数据清洗与数据处理
清除噪声,其方法哟几种方法,人工,利用模型处理。