这里我们分析我从拉钩网暂时爬取的1千条数据
没有数据的可以先用https://pan.baidu.com/s/1Z35n4NC5LNRW5dJd_LQTlw

1.首先介绍我们用到的包

import pandas as pd # 数据框操作
import numpy as np
import matplotlib.pyplot as plt # 绘图
import matplotlib as mpl # 配置字体
import jieba # 分词
from wordcloud import WordCloud # 词云可视化

pip 导入wordcloud可能会出问题,
分词可以看看这篇介绍
pandas简介

https://blog.****.net/qq_37786775/article/details/81094405

配置matplotlib字体
mpl.rcParams["font.sans-serif"] = ["Microsoft YaHei"]

配置绘图风格

plt.rcParams["axes.labelsize"] = 16.
plt.rcParams["xtick.labelsize"] = 14.
plt.rcParams["ytick.labelsize"] = 14.
plt.rcParams["legend.fontsize"] = 12.
plt.rcParams["figure.figsize"] = [15., 15.]

导入数据

data = pd.read_excel(r'C:\Users\Administrator\Desktop\png\jobinfo.xlsx',encoding='gbk')
data = pd.read_csv(r'xxx',encoding='gbk')

查看前5条数据
print(data.head(5))

数据概览

python进行多方面数据分析

image.png

分析学历要求

data['job_xueli'].value_counts().plot(kind='barh',rot=0)
plt.title("分析学历要求", fontsize=24)
plt.xlabel("Count", fontsize=14)
plt.ylabel("学历", fontsize=14)
plt.savefig("lagou.jpg") #保存图片
plt.show()

python进行多方面数据分析

image.png

分析工作经验
data['job_ask'].value_counts().plot(kind='bar',rot=0,color='b')
plt.title("工作经验", fontsize=24)
plt.xlabel("count", fontsize=14)
plt.ylabel("经验", fontsize=14)
plt.savefig("lagou.jpg")
plt.show()

python进行多方面数据分析

image.png

词云分析

mystr = ''
for n in range(data.shape[0]):
seg_list = list(jieba.cut(data['job_name'][n]))
for seg in seg_list:
mystr = mystr + seg + ' '

font = r'E:\MyDjango\ciyun\simfang.ttf'
wordcloud = WordCloud(font_path=font,
background_color="black",
width=1000, height=860, margin=2).generate(mystr)

plt.imshow(wordcloud)
plt.axis("off")
plt.savefig("lagou.jpg")
plt.show()

python进行多方面数据分析

image.png

这里的simfang.ttf是让，词云支持中文,作者只使用了默认，没有自己添加图片，添加了图片就这样了

python进行多方面数据分析

接下来的更新就是加图片和
from pyecharts import Geo # 地理图
地理图的使用

python进行多方面数据分析

持续更新，欢迎关注。

python进行多方面数据分析

配置绘图风格

导入数据

相关推荐