天池NLP新闻文本分类学习赛心得-Task1
天池NLP新闻文本分类学习赛心得-Task1
赛题链接:https://tianchi.aliyun.com/competition/entrance/531810/introduction
赛题数据类似于这样:
官方将文本数据进行匿名化,防止人为标注数据,我认为这是个蛮好的决策,感觉我大概率需要以一种模糊的状态去对待它,由于样本量大,所占内存也大,用正常的pd.read_csv()方法读取稍微费时,假象以下,每次需要花半分钟读取数据,难受嘛?我是挺难受的。
所以我在第一次读取的时候就把他转存为.pkl,这样之后跑起代码来,也不会因为数据无法读取或者耗时太长而苦恼了。
回归正题,NLP归根结底还是一个分类问题,跟普通物体分类而言,多了个语义和语境的区别,要搞懂的这些很难在这较短促的时间内搞定,所以用着别人的模型,做个快乐的调参侠吧。
这次新闻文本分类,总共有14 种标签:
在数据集中标签的对应的关系如下:{‘科技’: 0, ‘股票’: 1, ‘体育’: 2, ‘娱乐’: 3, ‘时政’: 4, ‘社会’: 5, ‘教育’: 6, ‘财经’: 7, ‘家居’: 8, ‘游戏’: 9, ‘房产’: 10, ‘时尚’: 11, ‘**’: 12, ‘星座’: 13}
根据各种分类器完成对匿名字符进行特征提取并生成分类模型,对预测集进行预测分类,我个人还是蛮喜欢和一起组队学习的队友们进行交流,可以加快自己的学习迭代能力,找到更加合适模型。
用机器学习中Tf-idf的方法稍微训练了训练集文本分类模型,由测试集分出来的验证集进行验证,f1分数为 0.83,有点理解NLP的分类思想了。