第二章:关键词与文章相似度
BeautifulSoup查看结构
把html转换成字符串,提取字符串中的内容
中文分词介绍
jieba分词
自定义词典与词性
当创新办和云计算识别不出来时,外加字典
当不知道往字典中加入新词设置多大频率时,可以参考suggest,tag是词性的意思
删除词
关键词的提取方法
jieba提取关键词
自定义idf文件的预测
jieba中使用textrank提取关键词
文本VSM的表示方法
EXCEPT是要删除的词,POS_include是要保留的词性
借助“ ”.join把unicode转换为字符串
排除频率为1的词(7000变为3000)
输出前20个频率最高的词
将词转换为id值
文本相似性计算
字典保存与加载
加载上面保存的语料
计算出相似的文本