机器学习-术语

机器学习方法是计算机利用已有的数据,得出了某种模型,并利用此模型预测未来的一种方法。
机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。
机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。
首先,我们需要在计算机中存储历史的数据。
接着,我们将这些 数据通过机器学习算法进行处理,这个过程在机器学习中叫做“训练”,处理的结果可以被我们用来对新的数据进行预测,这个结果一般称之为“模型”。
对新数据 的预测过程在机器学习中叫做“预测”。
“训练”与“预测”是机器学习的两个过程,“模型”则是过程的中间输出结果,“训练”产生“模型”,“模型”指导 “预测”。

NFL定理:没有免费的午餐(所有问题出现的机会相同或者所有问题同等重要)
人工智能(artificial intelligence)
逻辑理论家(Logic Theorist)
通用问题求解(general problem solving)
ILP(inductive logic programming)归纳逻辑程序设计
统计学习(statistical learning)
支持向量机(support vector machine)简称SVM
数据获取、数据管理、数据分析、仿真实验
机器学习、云计算、众包(crowdsourcing)
数据挖掘(data mining)的支撑为机器学习领域和数据库领域
迁移学习(transfer learning)
类比学习(learning by analogy)
深度学习(deep learning)
多释原则(principle of multiple explanations)
集成学习(ensemble learning)
版本空间(version space)
梯度下降法:主要运用在线型回归,逻辑回归,神经网络,推荐算法中;
牛顿法: 主要运用在线型回归中;
BP算法: 主要运用在神经网络中;
SMO算法:主要运用在SVM中。
机器学习(machine learning)
模型(model)     :计算机层面的认知
学习算法(learning algorithm):从数据中产生模型的方法
数据集(data set):一组记录的合集
示例 (instance)  :对于某个对象的描述
样本 (sample)    :也叫示例
属性(attribute)  :对象的某方便表现或特征
特征   (feature) :同属性
属性值  (attribute value):属性上的取值
属性空间(attribute space):属性张成的空间
样本空间/输入空间(sample space):同属性空间
特征向量 (feature vector):在属性空间里每个点对应一个坐标向量,把一个示例称作特征向量
维数     (dimensionality):描述样本参数的个数(也就是空间是几维的
学习(learning)/训练(training):从数据中学得模型
训练数据  (training data):训练过程中用到的数据
训练样本(training sample):训练用到的每个样本
训练集     (training set):训练样本组成的集合
假设         (hypothesis):学习模型对应了关于数据的某种潜在规则
真相         (group-true):真正存在的潜在规律
学习器          (learner):模型的另一种叫法,把学习算法在给定数据和参数空间的实例化
预测         (prediction):判断一个东西的属性
标记              (label):关于示例的结果信息,比如我是一个“好人”。
样例            (example):拥有标记的示例
标记空间/输出空间(label space):所有标记的集合
分类          (classification):预测时离散值,比如把人分为好人和坏人之类的学习任务
回归              (regression):预测值时连续值,比如你的好人程度达到了0.9,0.6之类的
二分类  (binary classification):只涉及两个类别的分类任务
正类    (positive class):二分类里的一个
反类    (negative class):二分类里的另外一个
多分类  (multi-class classification):涉及多个类别的分类
测试    (testing):学习到模型之后对样本进行预测的过程
测试样本(testing sample):被预测的样本
聚类    (clustering):把训练集中的对象分为若干组
簇  (cluster):每一个组叫簇
监督学习(supervised learning):典范--分类和回归
无监督学习(unsupervised learning):典范--聚类
未见示例(unseen instance):“新样本“,没训练过的样本
泛化    (generalization)能力:学得的模型适用于新样本的能力
分布    (distribution):样本空间的全体样本服从的一种规律
独立同分布(independent and identically distributed,简称i,i,d.)
错误率  (error rate)
精度    (accuracy)
误差    (error)
训练误差(training error)
经验误差(empirical error)
泛化误差(generalization error)
过拟合  (overfitting)
欠拟合  (underfitting)
模型选择(model selection)
测试集  (testing set)
测试误差(testing error)
留出法  (hold-out):把数据集D划分为两部分:训练集S和测试集T,其中S U T=D,S∩T=Φ。(一般不能随机划分样本)
训练/测试集划分要尽可能保持数据分布的一致性
分层采样(stratified sampling):例如通过对D进行分层采样而获得含70%样本的训练集S和含30%样本的测试集T,若D包含500个正例、500个反例,则分层采样得到的S应包含350个正例、350个返例,而T则包含150个正例和150个反例
交叉验证法(cross validation):称为折交叉验证法(k-fold cross validation)
k折交叉验证法(k-fold cross validation):训练集(k-1)+测试集(k)=样本集
留一法  (Leave-One-Out):训练集与初始数据集相比只少了一个样本
自助法  (bootstrapping)/可重复采样/有回放采样
自助采样法(bootstrap sampling)
包外估计(out-of-bag estimate)
参数    (parameter)
参数调节(parameter tuning):在进行模型评估与选择时,除了要对适用学习算法进行选择,还需对算法参数进行设定。
验证集  (validation set):模型评估与选择中用于估计测试的数据集
性能度量(performance measure):对学习器的泛化性能进行评估,不仅需要有效可行的实验估计方法,还需要有衡量模型泛化能力的评价标准。

均方误差(mean squared error):回归任务最常使用的性能度量

机器学习-术语

错误率(error rate):错误率是分类错误的样本数占样本总数的比例

机器学习-术语

精度  (Precision) :精度是分类正确的样本数占样本总数的比例

机器学习-术语

查准率(precision)           :预测为正例的实例中真实正例的比例

机器学习-术语

真正例率(True sample rate)  :真实正例被预测为正例的比例  

查全率(recall)              :真实正例被预测为正例的比例

机器学习-术语

假正例率(False positive rate :真实反例被预测为正例的比例 
真正例(True Positive) :使用TP来表示真正例的样本数
假正例(False Positive):使用FP来表示假正例的样本数
真反例(True Negtive)  :使用TN来表示真反例的样本数
假反例(False Negative):使用FN来表示假反例的样本数
混淆矩阵(confusion matrix)
平衡点 (Break-Event Point,简称BEP):查准率=查全率

F1是基于查准率与查全率的调和平均(harmonic mean):

                                   机器学习-术语

宏查准率(macro-P):

                                   机器学习-术语

宏查全率(macro-R):

                                   机器学习-术语

宏F1    (macro-F1):

                                   机器学习-术语

微查准率(micro-P):

                                   机器学习-术语

微查全率(micro-R):

                                   机器学习-术语

微F1    (micro-F1):

                                  机器学习-术语



ROC与AUC
受试者工作特征(Receiver Operating Characteristic,简称ROC)

ROC曲线下面积(Area Under ROC Curve,简称AUC)

机器学习-术语

分类阈值(threshold)
截断点  (cut point)

真正例率(True Positive Rate,简称TPR)

机器学习-术语

假正例率(False Positive Rate,简称FPR)

机器学习-术语

非均等代价(unequal cost)
代价矩阵(cost matrix)
总体代价(total cost)

代价敏感(cost-sensitive):D+与D-分别代表样例集D的正例子集和反例子集

机器学习-术语

代价曲线(cost curve):代价曲线图的横轴是取值为[0,1]的正例概率代价

机器学习-术语

其中p是样例为正例的概率;纵轴是取值为[0,1]的归一化代价

机器学习-术语

统计假设实验(hypothesis test)

机器学习-术语

二项检验(binomial test)

置信度  (confidence)

机器学习-术语

成对t检验(paired t-tests)

McNemar检验

机器学习-术语


Fridman检验与Nemenyi后续检验

机器学习-术语

机器学习-术语

机器学习-术语

偏差-方差分解(bias-variance decomposition)

机器学习-术语

机器学习-术语

偏差-方差窘境(bias-variance dilemma)

机器学习-术语

代价敏感学习 (cost-sensitive learning)
偏差-方差-协方差分解(bias-variance-covariance decomposition)


线性模型    (linear model):

机器学习-术语

机器学习-术语

非线性模型  (nonlinear model)
可解释性    (comprehensibility)

线性回归    (linear regression):

机器学习-术语

均方误差/平方损失(square loss):

机器学习-术语

欧氏距离    (Euclidean distance)
最小二乘法  (least square method)

参数估计    (parameter estimation):

机器学习-术语

多元线性回归(multivariate linear regression):

机器学习-术语

满秩矩阵    (full-rank matrix)
正定矩阵    (positive definite matrix)
正则化      (regularization)
广义线性模型(generalized linear model)
联系函数    (link function)
单位阶跃函数(unit-step function)
替代函数    (surrogate function)

对数几率函数(logistic function):

机器学习-术语

几率        (odds)
对数几率    (log odds)
对数几率回归(logistic regression)

极大似然法  (maximum likelihood method)

梯度下降法  (gradient descent method)
牛顿法      (Newton method)

机器学习-术语

机器学习-术语

线性判别分析(Linear Discriminant Analysis,简称LDA)
类内散度矩阵(within-class scatter matrix)
类间散度矩阵(between-class scatter matrix)
广义瑞利商  (generalized Rayleigh quotient)
纠错输出码  (Error Correcting Output Codes,简称ECOC)
编码:对N个类别做M次划分,每次划分将一部分类别划为正类,一部分划为反类,从而形成一个二分类训练集;这样一共产生M个训练集,可训练出M个分类器。
解码:M个样本分别对测试样本进行预测,这些预测标记组成一个编码。将这个预测编码与每个类别各自的编码进行比较,返回其中距离最小的类别作为最终预测结果。
矩阵编码    (coding matrix)
类别不平衡  (class-imbalance):指分类任务重不同类别的训练样例数目差别很大的情况
再缩放      (rescaling)
欠采样      (under sampling)
过采样      (over sampling)
阈值移动    (threshold)
代价敏感学习(cost-sensitive learning)
稀疏表示    (sparse representation)
误分类代价  (misclassification cost)
多标记学习  (multi-label learning)