Python实现数据分析:数据分析及可视化实战
豆瓣电影数据分析
素材:https://download.****.net/download/lm19770429/12503293
结巴分词:
"\n".join()也能够实现
筛选长度大于1的
建立过滤词列表:
汇总,取高频的前30个词
keywords_counts=keywords_counts.value_counts()[:30] #统计一下筛选后的关键词情况
把以上过程设计为一个函数:
数据:
和前面的.db的内容链接起来,找到评分
以上可以设计为一个函数
调用:
关键词及评分关系分析:
import pandas as pd
import sqlite3
def get_movie_id_list(min_comment_count):
movie_list = comment_data['MOVIEID'].value_counts()
movie_list=movie_list[movie_list.values>min_comment_count]
return movie_list.index
conn=sqlite3.connect("douban_comment_data.db")
comment_data=pd.read_sql_query("select * from comment;",conn)
#print(comment_data.head())
#统计每部电影有多少人评论
#movie_list=comment_data['MOVIEID'].value_counts()
#筛选评论数大于100的电影
#movie_list=movie_list[movie_list.values>1000]
#print(len(movie_list))
#print(movie_list.count())
indexs=get_movie_id_list(1000)
print(indexs.tolist())
print(list(indexs))