《统计学习方法(第二版)》李航 读书笔记(1)学术资源刊物和概述
《统计学习方法(第二版)》李航 读书笔记(1)
学术资源刊物和概述
相关学术资源下载
• COLT和ICML(每年度的官网): http://www.cs.mcgill.ca/~colt2009/proceedings.html
• CV:http://www.cvpapers.com/index.html;
• NIPS: http://books.nips.cc/;
• JMLR(期刊): http://jmlr.csail.mit.edu/papers/;
相关期刊
机器学习
• 学术会议:NIPS、ICML、ECML和COLT,
• 学术期刊:《Machine Learning》和《Journal of Machine Learning Research》
数据挖掘
• 学术会议:SIGKDD、ICDM、SDM、PKDD和PAKDD
• 学术期刊:《Data Mining and Knowledge Discovery》和《IEEE Transactions on Knowledge and Data Engineering》
人工智能
• 学术会议:IJCAI和AAAI、
数据库
• 学术会议:SIGMOD、VLDB、ICDE,
其它一些顶级期刊如
• 《Artificial Intelligence》、
• 《Journal of Artificial Intelligence Research》、
• 《IEEE Transactions on Pattern Analysis and Machine Intelligence》、
• 《Neural Computation》等也经常发表机器学习和数据挖掘方面的论文
机器学习的英文定义:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.
赫尔伯特•西蒙(Herbert A. Simon)曾对学习给出以下定义:“如果一个系统能够通过执行某个过程改进它的性能,这就是学习。”因此,统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。
机器学习的应用包括:
• 数据挖掘
• 计算机视觉
• 自然语言处理
• 生物特征识别
• 搜索引擎
• 医学诊断
• 检测信用卡欺诈
• 证券市场分析
• DNA序列测序
• 语音和手写识别
• 战略游戏
• 机器人
数据挖掘可以视为机器学习和数据库的交叉,它主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据。下面这张图是李航老师在PPT中放的一张图。是对机器学习一个比较形象的描述
统计学习和机学习的差异
• 研究方法差异
• 统计学研究形式化和推导
• 机器学习更容忍一些新方法
• 维度差异
• 统计学强调低维空间问题的统计推导(confidence intervals, hypothesis tests, optimal estimators)
• 机器学习强调高维预测问题
• 统计学和机器学习各自更关心的领域:
• 统计学: survival analysis, spatial analysis, multiple testing, minimax theory, deconvolution(反卷积), semiparametric inference(半参数推理), bootstrapping(自启动), time series.
• 机器学习: online learning, semisupervised learning(半监督学习), manifold learning(流形学习), active learning, boosting.
统计学习的对象是数据,统计学习的目的是对数据(尤其是未知数据)的预测和分析;
统计学习的方法是基于数据构建概率统计模型从而对数据进行预测与分析,
具体由监督学习(supervised learning)、半监督学习(semisupervised learning)、无监督学习(unsupervised learning)和强化学习(reinforcement learning)
统计学习的方法
从给定的、有限的、用于学习的训练数据(training data) 集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间(hypothesis space);应用某个评价准则(evaluation criterion),从假设空间中选取一个最优模型,使它对已知的训练数据及未知的测试数据(test data)在给定的评价准则下有最优的预测;最优模型的选取由算法实现。
这就构成了统计学习方法的三要素:模型,策略strategy,算法algorithm