赛题理解

任务

这次任务是一个多分类问题。评测标准f1_score,不直接用准确率可能是为了在unbalance的数据集中,更好地评测模型

思路

特征抽取

  • DL
    • Word2vec
    • Glove
    • Bert
  • ML
    • TF-IDF

分类器

  • SVM
  • XGboost

数据分析

特征是由数字表示的,不能直接使用预训练模型,Bert==GG。最简单的特征抽取就是基于统计的TF-IDF,可以尝试自己训练Glove。

赛题理解

统计了一下label的分布,差距很大,鉴于评测用的是F1-score。就要对数据进行balance操作。