学习笔记learning to rank--LightGBM--参数介绍
LightGBM的核心参数
gridsearchcv工作机制
GridSearchCV的名字其实可以拆分为两部分,GridSearch和CV,即网格搜索和交叉验证。
这两个概念都比较好理解,网格搜索,搜索的是参数,即在指定的参数范围内,按步长依次调整参数,利用调整的参数训练学习器,从所有的参数中找到在验证集上精度最高的参数,这其实是一个循环和比较的过程。
GridSearchCV可以保证在指定的参数范围内找到精度最高的参数,但是这也是网格搜索的缺陷所在,它要求遍历所有可能参数的组合,在面对大数据集和多参数的情况下,非常耗时。
交叉验证的概念也很简单:
- 将训练数据集划分为K份,K一般为10(我个人取3到5比较多) ;
- 依次取其中一份为验证集,其余为训练集训练分类器,测试分类器在验证集上的精度 ;
- 取K次实验的平均精度为该分类器的平均精度。
参数名称及含义如下:
使用gridsearchcv对lightgbm调参
对于基于决策树的模型,调参的方法都是大同小异。一般都需要如下步骤:
首先选择较高的学习率,大概0.1附近,这样是为了加快收敛的速度。这对于调参是很有必要的。
- 对决策树基本参数调参
- 正则化参数调参
- 最后降低学习率,这里是为了最后提高准确率
详细信息可见:
链接: http://www.huaxiaozhuan.com/%E5%B7%A5%E5%85%B7/lightgbm/chapters/lightgbm_usage.html.