python进行多方面数据分析
这里我们分析我从拉钩网暂时爬取的1千条数据
没有数据的可以先用https://pan.baidu.com/s/1Z35n4NC5LNRW5dJd_LQTlw
1.首先介绍我们用到的包
import pandas as pd # 数据框操作
import numpy as np
import matplotlib.pyplot as plt # 绘图
import matplotlib as mpl # 配置字体
import jieba # 分词
from wordcloud import WordCloud # 词云可视化
pip 导入wordcloud可能会出问题,
分词可以看看这篇介绍
pandas简介
https://blog.****.net/qq_37786775/article/details/81094405
配置matplotlib字体
mpl.rcParams["font.sans-serif"] = ["Microsoft YaHei"]
配置绘图风格
plt.rcParams["axes.labelsize"] = 16.
plt.rcParams["xtick.labelsize"] = 14.
plt.rcParams["ytick.labelsize"] = 14.
plt.rcParams["legend.fontsize"] = 12.
plt.rcParams["figure.figsize"] = [15., 15.]
导入数据
data = pd.read_excel(r'C:\Users\Administrator\Desktop\png\jobinfo.xlsx',encoding='gbk')
data = pd.read_csv(r'xxx',encoding='gbk')
查看前5条数据
print(data.head(5))
数据概览
image.png
分析学历要求
data['job_xueli'].value_counts().plot(kind='barh',rot=0)
plt.title("分析学历要求", fontsize=24)
plt.xlabel("Count", fontsize=14)
plt.ylabel("学历", fontsize=14)
plt.savefig("lagou.jpg") #保存图片
plt.show()
image.png
分析工作经验
data['job_ask'].value_counts().plot(kind='bar',rot=0,color='b')
plt.title("工作经验", fontsize=24)
plt.xlabel("count", fontsize=14)
plt.ylabel("经验", fontsize=14)
plt.savefig("lagou.jpg")
plt.show()
image.png
词云分析
mystr = ''
for n in range(data.shape[0]):
seg_list = list(jieba.cut(data['job_name'][n]))
for seg in seg_list:
mystr = mystr + seg + ' '
font = r'E:\MyDjango\ciyun\simfang.ttf'
wordcloud = WordCloud(font_path=font,
background_color="black",
width=1000, height=860, margin=2).generate(mystr)
plt.imshow(wordcloud)
plt.axis("off")
plt.savefig("lagou.jpg")
plt.show()
image.png
这里的simfang.ttf是让,词云支持中文,作者只使用了默认,没有自己添加图片,添加了图片就这样了
接下来的更新就是加图片和
from pyecharts import Geo # 地理图
地理图的使用
持续更新,欢迎关注。