无须代码爬取豆瓣热门电影评论,并制作词云
使用到的工具有
- Web Scraper
- pycharm+anaconda
- github jieba分词
- wordart 网站
1 抓取数据
web scraper是一个谷歌浏览器插件,如果可以科学上网的话直接去下载。不能科学上网的话就只能在网上找了。
安装好插件后开启 web Scaper
在谷歌浏览器种按下F12 打开开发者工具
详细操作看我录制的视频,比图文更好一些。把链接中间的空格去掉。
链接:https: // pan. baidu. com/s/113z_bRVbjqX8eyr6rfG5vQ
提取码:9h3l
在github上下载jieba分词
windows系统的话打开cmd 进入python.exe所在目录.输入python setup.py install
打开pycharm设置好annaconda解释器
# -*- coding: UTF-8 -*-
import numpy as np
import pandas as pd
import jieba
import jieba.analyse
import codecs
# 设置pd的显示长度
pd.set_option('max_colwidth', 500)
# 载入数据
rows = pd.read_csv('D:\\seven_samurai.csv', header=0, encoding='utf-8', dtype=str)
segments = []
for index, row in rows.iterrows():
content = row[1]
# TextRank 关键词抽取,只获取固定词性
words = jieba.analyse.textrank(content, topK=50, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))
splitedStr = ''
for word in words:
# 记录全局分词
segments.append({'word': word, 'count': 1})
splitedStr += word + ' '
dfSg = pd.DataFrame(segments)
# 词频统计
dfWord = dfSg.groupby('word')['count'].sum()
# 导出csv
dfWord.to_csv('D:\\keywords.csv', encoding='utf-8')
运行完毕后会生成
将词频导入,记住是分号隔开的,可以用notepad++打开后替换
字体必须是中文字体,不然词云是乱码的。