【学习笔记】自然语言处理实践(新闻文本分类)- 数据读取与分析
本笔记是参加Datawhale零基础入门NLP赛事的学习笔记。
数据读取
数据分析
-
文本长度分布
结论:文本的平均长度为907个字符,最长的文本有57921个字符,最短的只有两个。 -
文本长度直方图
结论:由图可见,绝大多数的文本长度不超过1w字符。 -
类别分布
结论:由上图可以得出,数量最多的是0(科技)类的文本,最少的是13(星座)类文本。 -
类别分布
结论:训练集中不同的字符共6869个,数量最多的5个字符分别是’3750’,‘648’,‘900’,‘3370’,‘6122’,数量最少的字符是’3133’。 -
句子词频统计
结论:‘3750’, ‘900’, '648’这三个字符几乎在每个文本都出现,因此可能是标点符号。
作业
-
文本句子数
结论:对每个文本统计可能的标点符号数,得到句子数量。 -
按标签的句子词频统计
结论:根据每一种标签对字符频率进行统计,并且排除可能是标点符号的字符,统计出每类文本出现最多的字符,可能成为分类的标准。