2017 开放学术精准画像大赛 - task2 解决方案
第一次和同学组队做比赛。参加了 2017 开放学术精准画像大赛,三个人各自完成一个task。
队伍最终排名第二名,三个任务的python代码已经开源,见 https://github.com/geekinglcq/aca
ps: 三个人能一起做完比赛,很开心。其次,比赛赛制虽然出现了一些小插曲,但总体来说主办方还是挺nice的。
我负责task2部分的任务,算法在初赛时表现不佳,排名17名。决赛时,测试集的数据分布和训练集、验证集的数据分布差异较大。我的模型泛化性能尚可,最终单项排名第2。下面简要介绍一下task2的解决方法。
颁奖时和前几名的队伍交流了一下做法,大抵可以分为两种方向:
- 文本多标签分类
- 兴趣推荐
我是把任务当成一个推荐问题做的,即根据已知的一些兴趣给待预测学者推荐兴趣。
程序利用学者发表的论文标题信息、论文的引用和学者投稿期刊信息来预测学者的兴趣标签。程序先利用四个简单模型分别计算学者的兴趣得分,然后按照权重求出学者兴趣的加权平均得分,最后选择得分最高的5个兴趣作为最终预测结果。
模型中出现的符号如下:
模型一
模型一的基本思想是:发表论文标题内容相似的学者,他们的研究兴趣相似。
程序首先从论文集合中找出每位学者
最终,学者
根据上式,模型选取得分最高的5个兴趣作为学者的兴趣标签。
模型二
模型一先给待预测学者
- 学者
ATj 对自己的三个兴趣{Ij1,Ij2,Ij3} 的感兴趣程度不同; - 待预测学者
AUi 和找出的相似学者ATj ,他们可能只有部分研究内容相似;
模型一使用同样的权重
为了解决上述问题,模型二直接计算待预测学者
模型二的基本思想是,学者发表的论文标题描述了学者的研究兴趣。
程序将训练集中学者发表的论文集合,按照学者的兴趣进行分类。
假设学者
每个兴趣
预测时,程序计算出集合
根据上式,模型选取得分最高的5个兴趣作为学者的兴趣标签。
模型三
此模型的基本思想是:学者发表的文章,引用的文章和引用学者的文章可以反映出学者的研究兴趣。研究兴趣相似的学者在上述三种情况下重合度较高。
学者
模型使用 Jaccard 相似系数作为相似性度量函数:
和模型一类似,算法将相似函数
模型四
此模型的基本思想是:期刊通常收录某一领域的论文,具有一定的兴趣集合。学者将论文投到与自己研究兴趣相近的期刊。模型先计算期刊的兴趣分布,然后根据待预测学者投稿期刊的信息,预测学者的兴趣。
模型将训练集中学者的兴趣指派为其投稿期刊的兴趣,由此可以得到期刊的兴趣集合
在计算待预测学者兴趣时,先统计待预测学者
其中
由此可以计算出待预测学者对兴趣
预处理
模型一和模型二涉及计算文本相似度的计算。文本处理过程包括:
- 去停用词
- 将文本转化为词袋模型
- 文本转成TF-IDF表示
- LSI模型降维LSI
- 计算文本相似度
模型融合
上述四个模型利用不同特征预测学者的兴趣。为了使预测更加客观、合理,程序对四个模型进行了融合。待预测学者
如下:
总结
比赛中没有用到高大上的模型和算法,难度属于文本处理入门级别。
其他队伍的模型比较优雅一些。有使用Graph Embedding、SGD、RandomForest等,期待他们的算法和代码。