机器学习 第一周 总结 知识点
Machine learning algorithms:-Supervisedlearning-Unsupervised learningOthers: Reinforcement learning, recommendersystems. Also talk about: Practical advice for applying learning algorithms.
Machine Learning-Grew out ofwork in AI-New capability for computers Examples: -Database mining Largedatasets from growth of automation/web. E.g., Web click data, medical records, biology, engineering-Applicationscan’t program by hand.E.g., Autonomous helicopter, handwriting recognition,most of Natural Language Processing (NLP), Computer Vision.
1. Tom 定义的机器学习是,一个好的学习问题定义如下,他说,一个程序被认为能从经验 E 中学习,解决任务 T,达到性能度量值P,当且仅当,有了经验 E 后,经过 P 评判,程序在处理 T 时的性能有所提升。
2. 我们数据集中的每个样本都有相应的“正确答案”。再根据这些样本作出预测,就像房子和肿瘤的例子中做的那样。我们还介绍了回归问题,即通过回归来推出一个连续的输出,后我们介绍了分类问题,其目标是推出一组离散的结果。
3. 在无监督学习中,我们已知的数据。看上去有点不一样,不同于监督学习的数据的样子,
即无监督学习中没有任何的标签或者是有相同的标签或者就是没标签。所以我们已知数据
集,却不知如何处理,也未告知每个数据点是什么。别的都不知道,就是一个数据集。你能
从数据中找到某种结构吗?针对数据集,无监督学习就能判断出数据有两个不同的聚集簇。
这是一个,那是另一个,二者不同。是的,无监督学习算法可能会把这些数据分成两个不同
的簇。所以叫做聚类算法。
4. 垃圾邮件问题 监督学习问题
新闻事件分类 无监督学习
细分市场 可当作无监督学习问题
病患 监督学习
二.单变量线性回归
主要讲单变量线性回归,代价函数,梯度下降求代价函数最小值
它被称作监督学习是因为对于每个数据来说,我们给出了“正确的答案”,即告诉我们:
根据我们的数据来说,房子实际的价格是多少,而且,更具体来说,这是一个回归问题。回
归一词指的是,我们根据之前的数据预测出一个准确的输出值,对于这个例子就是价格,同
时,还有另一种最常见的监督学习方式,叫做分类问题,当我们想要预测离散的输出值,例
如,我们正在寻找癌症肿瘤,并想要确定肿瘤是良性的还是恶性的,这就是 0/1 离散输出的问题。更进一步来说,在监督学习中我们有一个数据集,这个数据集被称训练集。
m 代表训练集中实例的数量
x 代表特征/输入变量
y 代表目标变量/输出变量
(x,y) 代表训练集中的实例
(x(i),y(i) ) 代表第 i 个观察实例
h 代表学习算法的解决方案或函数也称为假设(hypothesis)
这就是一个监督学习算法的工作方式,我们可以看到这里有我们的训练集里房屋价格
我们把它喂给我们的学习算法,学习算法的工作了,然后输出一个函数,通常表示为小写 h
表示。h 代表 hypothesis(假设) ,h 表示一个函数,输入是房屋尺寸大小,就像你朋友想出
售的房屋,因此 h 根据输入的 x 值来得出 y 值,y 值对应房子的价格因此,h 是一个从
x 到 y 的函数映射。
一种可能的表达方式为:, 因为只含有一个特征/输入变量,因此这样的问题叫作单变量线性回归问题。
我们选择的参数决定了我们得到的直线相对于我们的训练集的准确程度,模型所预测的
值与训练集中实际值之间的差距(下图中蓝线所指)就是建模误差(modeling error)。
代价函数也被称作平方误差函数,有时也被称为平方误差代价函数。我们之所以要求出
误差的平方和,是因为误差平方代价函数,对于大多数问题,特别是回归问题,都是一个合
理的选择。还有其他的代价函数也能很好地发挥作用,但是平方误差代价函数可能是解决回
归问题最常用的手段了
梯度下降是一个用来求函数最小值的算法,我们将使用梯度下降算法来求出代价函数
J(θ0,θ1) 的最小值。
梯度下降背后的思想是:开始时我们随机选择一个参数的组合(θ0,θ1,...,θn),计算代价
函数,然后我们寻找下一个能让代价函数值下降最多的参数组合。我们持续这么做直到到到
一个局部最小值(local minimum),因为我们并没有尝试完所有的参数组合,所以不能确定
我们得到的局部最小值是否便是全局最小值(global minimum),选择不同的初始参数组合,
可能会找到不同的局部最小值。
第三章 线性代数内容 略