无须代码爬取豆瓣热门电影评论，并制作词云

使用到的工具有

Web Scraper
pycharm+anaconda
github jieba分词
wordart 网站
1 抓取数据
web scraper是一个谷歌浏览器插件，如果可以科学上网的话直接去下载。不能科学上网的话就只能在网上找了。
安装好插件后开启 web Scaper
在谷歌浏览器种按下F12 打开开发者工具
详细操作看我录制的视频，比图文更好一些。把链接中间的空格去掉。
链接：https: // pan. baidu. com/s/113z_bRVbjqX8eyr6rfG5vQ
提取码：9h3l

无须代码爬取豆瓣热门电影评论，并制作词云
在github上下载jieba分词
windows系统的话打开cmd 进入python.exe所在目录.输入python setup.py install
打开pycharm设置好annaconda解释器

# -*- coding: UTF-8 -*-
import numpy as np
import pandas as pd
import jieba
import jieba.analyse
import codecs

# 设置pd的显示长度
pd.set_option('max_colwidth', 500)

# 载入数据
rows = pd.read_csv('D:\\seven_samurai.csv', header=0, encoding='utf-8', dtype=str)

segments = []
for index, row in rows.iterrows():
    content = row[1]
    # TextRank 关键词抽取，只获取固定词性
    words = jieba.analyse.textrank(content, topK=50, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))
    splitedStr = ''
    for word in words:
        # 记录全局分词
        segments.append({'word': word, 'count': 1})
        splitedStr += word + ' '
dfSg = pd.DataFrame(segments)

# 词频统计
dfWord = dfSg.groupby('word')['count'].sum()
# 导出csv
dfWord.to_csv('D:\\keywords.csv', encoding='utf-8')

运行完毕后会生成
无须代码爬取豆瓣热门电影评论，并制作词云

将词频导入，记住是分号隔开的，可以用notepad++打开后替换
字体必须是中文字体，不然词云是乱码的。

无须代码爬取豆瓣热门电影评论，并制作词云

相关推荐