机器学习模型 笔记1

1 机器学习(Machine learning)

如今机器学习并不能超越执行预定义过程的计算机程序。
在机器学习模型的背后,这种行为上的适应和人类编写的每一条机器指令一样严格

1. 1什么是机器学习模型

揭示数据中潜在关系的过程。
可以看看作是给定输入情况下,输出一定结果的函数 F。
函数不是预先定义好的,而是从历史数据中推到出来。

  • 以照片为例,将多维像素值映射到二进制值得函数。一个像素值范围从0到255,一张三位像素空间映射空间将是(255* 255*255)*2大约是3000万。

1.2 近似性质

在学习的最后结果是对这种潜在关系的一种近似。

1.3 有监督 (supervised)or 无监督(unsupervised)

根据一个机器学习问题,可以确定他是有监督还是无监督

从一组样本(samples)组成的数据集开始,每个样本表示为一个属性(attributes)元组

1.3.1 有监督

数据样本包含一个目标属性y(真值 ground truth)通过学习得到一个函数 F。

  1. F接受非目标属性X,输出一个接近目标函数的值。即F(X)≈y
  2. 目标属性的数据通常称为“标记属性”(labeled data)

1.3.2 无监督

从数据中学习潜在的模式或规则,不以预先定义的真值作为基准

  1. 聚类(Clustering)根据数据中样本之间的相似性,将样本聚集成组。
  2. 关联(Association)发现样本属性之间的隐藏关联模式

1.3.3 半监督学习(semi-supervised learning)

在数据集很大,标记样本很少情况下。拥有有监督学习和无监督学习特征

1.4 分类(classification) or 回归(regression)

根据输出值得类型将机器学期模型进一步划分分类 和 回归。
如果是离散值(discrete values)称为分类模型
如果是连续值(continue values)称为回归模型
一些机器学习模型(例如决策树)可以直接处理非数字特征,必须以某种方式将这些非数字特征转换(transform)为数字特征。
逻辑回归(Logistic Regression)的机器学习模型,这种模型将连续概率值作为输出,但用于解决分类问题。

2 工作流

机器学习模型 笔记1

构建机器学习模型的工作流是以数据为中心

2.1特征工程(feature engineering)

将数据转换为所需格式

  • 将数据分为 训练 和测试。训练模型的过程使用训练数据集,用测试数据集来测试构建的模型是否够用。
  • 将数据集编码为数值
  • 填补缺失值

反复回到训练过程,调整我们选择模型公开的参数,(超参数调优hyper-parameter tuning)

3 数据

模型所能达到的性能上线是由数据决定的。

4 欠拟合(underfitting)or 过拟合(overfitting)

有监督学习算法,有两种情况下生成的模型不能很好地拟合数据

  1. 有监督学习算法的一个重要度量是泛化,它衡量从训练数据导出的模型对不可见数据的期望属性的预测能力,我们说一个模型是欠拟合或过拟合时,它意味着该模型没有很好地推广到不可见数据。

4.1原因

  1. 样本不具有代表性
  2. 捕捉到不期望的噪声和误差

4.2欠拟合

欠拟合模型是指不能很好地拟合训练数据的模型,即显著偏离真实值的模型。

4.3 过拟合

过拟合模型是与训练数据拟合较好的模型,即误差很小或没有误差,但不能很好地推广到不可见数据。