2020-10-02

ML/DL 学习笔记1

分类:有监督学习,y离散
聚类:无监督学习,分为几个类别
回归:y值连续

2020-10-02
特征工程(x值)
大部分情况下,收集得到的数据需要经过预处理后才能够为算法所使用,预处理的操作主要包括以下几个部分∶
数据过滤
处理数据缺失
处理可能的异常、错误或者异常值
合并多个数据源数据
数据汇总

对数据进行初步的预处理,需要将其转换为一种适合机器学习模型的表示形式,对许多模型类型来说,这种表示就是包含数值数据的向量或者矩阵:

  • 将类别数据编码成为对应的数值表示(一般使用1-of-k方法)-dumy
  • 从文本数据中提取有用的数据(一般使用词袋法或者TF-IDF)
  • 数值数据转换为类别数据以减少变量的值,比如年龄分段
  • 对数值数据进行转换,比如对数转换
  • 处理图像或者音频数据(像素、声波、音频、振幅等<傅里叶变换>)
  • 对特征进行正则化、标准化,以保证同一模型的不同输入变量的值域相同
  • 对现有变量进行组合或转换以生成新特征,比如平均数(做虚拟变量)不断尝试

类型特征转换之1-of-k
功能∶将非数值型的特征值转换为数值型的数据
描述∶假设变量的取值有k个,如果对这些值用1到k编序,则可用维度为k
的向量来表示一个变量的值。在这样的向量里,该取值所对应的序号所在的元素为1 其他为0
思考:假设 A B C为什么不是 1 2 3 而是 001 010 100:样本差异性 向量的形式为维度,one of key用维度的距离公式是一样的

文本数据抽取:
词袋法:考察关键词出现的次数或者2020-10-02
缺陷:每个词的权重都不知道,所以用TF-IDF的方法:

TF-IDF:词条的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降;也就是说词条在文本中出现的次数越多,表示该词条对该文本的重要性越高,词条在所有文本中出现的次数越少,说明这个词条对文本的重要性越高。TF(词频)指某个词条在文本中出现的次数,一般会将其进行归一化处理(该词条数量/该文档中所有词条数量);IDF(逆向文件频率)指一个词条重要性的度量,一般计算方式为总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。TF-IDF实际上是:TF*IDF