2020-10-02

ML/DL 学习笔记1

分类：有监督学习，y离散
聚类：无监督学习，分为几个类别
回归：y值连续

2020-10-02
特征工程（x值）
大部分情况下，收集得到的数据需要经过预处理后才能够为算法所使用，预处理的操作主要包括以下几个部分∶
数据过滤
处理数据缺失
处理可能的异常、错误或者异常值
合并多个数据源数据
数据汇总

对数据进行初步的预处理，需要将其转换为一种适合机器学习模型的表示形式，对许多模型类型来说，这种表示就是包含数值数据的向量或者矩阵：

将类别数据编码成为对应的数值表示(一般使用1-of-k方法)-dumy
从文本数据中提取有用的数据(一般使用词袋法或者TF-IDF)
数值数据转换为类别数据以减少变量的值，比如年龄分段
对数值数据进行转换，比如对数转换
处理图像或者音频数据(像素、声波、音频、振幅等<傅里叶变换>)
对特征进行正则化、标准化，以保证同一模型的不同输入变量的值域相同
对现有变量进行组合或转换以生成新特征，比如平均数（做虚拟变量)不断尝试

类型特征转换之1-of-k
功能∶将非数值型的特征值转换为数值型的数据
描述∶假设变量的取值有k个，如果对这些值用1到k编序，则可用维度为k
的向量来表示一个变量的值。在这样的向量里，该取值所对应的序号所在的元素为1 其他为0
思考：假设 A B C为什么不是 1 2 3 而是 001 010 100：样本差异性向量的形式为维度，one of key用维度的距离公式是一样的

文本数据抽取：
词袋法：考察关键词出现的次数或者 2020-10-02
缺陷：每个词的权重都不知道，所以用TF-IDF的方法：

TF-IDF：词条的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降;也就是说词条在文本中出现的次数越多，表示该词条对该文本的重要性越高，词条在所有文本中出现的次数越少，说明这个词条对文本的重要性越高。TF(词频)指某个词条在文本中出现的次数，一般会将其进行归一化处理(该词条数量/该文档中所有词条数量);IDF(逆向文件频率)指一个词条重要性的度量，一般计算方式为总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。TF-IDF实际上是:TF*IDF

ML/DL 学习笔记1

相关推荐