Cousera吴恩达机器学习week6笔记
Density Estimation
Gaussian Distribution
他的图像如下:以均值为中心,方差为宽度。
有了均值与方差的计算方法,就有了参数估计这一名词。就是:给你了一些样本值,你可以求出他们的均值与方差,然后用这两个参数估计总体样本的分布。
第二个比较重要的数学知识就是独立分布的概率,等于概率的乘积。
Algorithm
Building an Anomaly Detection System
Developing and Evaluating an Anomaly Detection System
Anomaly Detection vs. Supervised Learning
Choosing What Features to Use
进行数据的不同转换,以使其看起来更加高斯。比如:用 x1 的对数 log(x1) 来替换掉 x1,或者平方根来取代 x3。
像之前讲监督学习的误差分析一样, 我们先完整地训练出 一个学习算法, 然后在一组交叉验证集上运行算法 ;然后找出那些预测出错的样本, 然后再看看 我们能否找到一些其他的特征变量 来帮助学习算法, 让它在那些交叉验证时 判断出错的样本中表现更好 。
比如下图:绿色x代表anomaly example, 只有一个feature x1时会区分错误,加一个feature x2时就可以正确区分。
现在假如说,我怀疑其中一个出错的情形,是我的计算机在执行一个任务时,进入了一个死循环,因此被卡住了.意思就是说,假如我感觉,我的其中一台机器或者说其中一台服务器的代码执行到一个死循环卡住了,因此CPU负载升高,但网络流量没有升高,因为只是CPU执行了,较多的工作 所以负载较大卡在了死循环里.在这种情况下,要检测出异常 我可以新建一个特征 x5,x5 等于 CPU负载除以网络流量.因此 x5 的值将会变得不寻常地大.那我们就可以侦测出上述所说的这种情况。
Multivariate Gaussian Distribution
多元高斯分布构造方法:不再单独构造不同特征变量对应的高斯函数,一次性构造p(x),其中参数是μ和描述变量之间相关性的协方差矩阵Σ。其中
与原来模型关系:
1.当协方差矩阵是对角矩阵时,使用多元高斯分布和不使用多元高斯分布的异常检测算法的检测公式相同。
2.1 原来的模型手动创建新的特征变量来计算异常值;新的模型自动计算不同特征之间的相关性。
2.2 原来的模型计算量小,适合于大规模的特征变量(n较大);新的模型计算代价较大。
2.3 原来的模型在m较小的时候仍可以使用;新的模型要求样本数量m要大于特征变量n的数量,因为要保证Σ矩阵是可逆的。实际应用中,当m远远大于n的时候,差不多m>=10n,采用多元高斯分布。
实际应用中原来的模型更为常用,一般人会手动增加额外变量。
如果在实际应用中,发现Σ矩阵是不可逆,可能有以下2个方面的原因:
- 没有满足m大于n的条件。
- 有冗余变量(至少有2个变量完全一样,xi=xj,xk=xi+xj)。其实就是特征变量的线性相关造成的。
Predicting Movie Ratings
Problem Formulation
Content Based Recommendations
Collaborative Filtering
Mean Normalization
如果我们要预测一个从来没有给电影打分过的用户给电影打的分,使用协同过滤算法,那么对于协同过滤算法的cost function来说,我们只是对含有theta的正则化表达式求最小,也就是theta全为0.
那么预测的分数也全是0.
为了避免这种情况,我们使用均值归一化。