独家 | 一文盘点AutoML 库(附PPT等链接)
作者:Xu LIANG
翻译:王雨桐
校对:王威力
本文长度约为1300字,建议阅读5分钟
本文是Masashi Shibata针对AutoML演讲中的摘要。
自动化程度
手动构造预测变量,不引入学习的步骤;
手工选择特征,学习预测。引入自动化超参数调优(HPO)工具,例如Hyperopt,Optuna,SMAC3,scikit-optimize等;
手工构造算法,端到端学习特征和预测。除了HPO外,还有其他一些工具,例如featuretools,tsfresh,boruta等;
完全自动化。端到端学习算法,特征和预测。自动化算法(模型)选择工具,例如Auto-sklearn,TPOT,H2O,auto_ml,MLBox等。
参数自动优化的两种方法
AutoML库
自动化特征工程
特征生成
Featuretools: Deep feature synthesis
tsfresh
特征选择
3种方法: 包装法(Wrapper),过滤法(Filter),嵌入法(Embedded)
Scikit-lean 和Boruta
自动化算法(模型)选择
AutoML作为一个CASH问题(混合算法选择和超参优化),其中两个重要的问题是,没有一个适用于所有数据集的最优模型;一些模型对于超参数很敏感。我们需要同时解决模型选择和超参调优的问题。
Auto-sklearn
TPOT
h2o-3
auto_ml
MLBox
图七表示的是不同框架算法下,在分类数据集问题上的F1值。图八表示的不同框架算法下,在回归数据集上的均方误差(MSE)。其中箱型图分别表示上限、下四分位、中位、下四分位、下限,灰色圆圈表示异常值。
回归任务:auto-sklearn(基于贝叶斯)
分类任务:TPOT(基于遗传算法)
自动化的神经体系结构搜索
Reference
- https://www.slideshare.net/c-bata/pythonautoml-at-pyconjp-2019
- https://arxiv.org/pdf/1012.2599.pdf
- https://arxiv.org/pdf/1810.05934.pdf
- https://arxiv.org/pdf/1502.07943.pdf
- https://arxiv.org/pdf/1808.06492.pdf
编辑:王菁
校对:林亦霖
译者简介
王雨桐,UIUC统计学在读硕士,本科统计专业,目前专注于Coding技能的提升。理论到应用的转换中,敬畏数据,持续进化。
翻译组招募信息
工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。
你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。
其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。
点击文末“阅读原文”加入数据派团队~
点击“阅读原文”拥抱组织