Python3.6爬取前程无忧

运行环境:PyCharm、Python3.6
运行库:urllib、re、xlwt
最后编辑时间:2018年11月21日

解析网页源码
Python3.6爬取前程无忧

#先导入爬取数据所需的库
import urllib.request as ur#用于网页数据获取
import re#正则匹配网页数据中所需的数据
import xlwt#将获取的数据保存为excel文件

def get_content(page):#获取源码
    
def get(html):#在已完成转换的网页源码中匹配所需的职位信息
    
def excel_write(items,index):#写入excel文件

newTable = '统计.xls'#设定生成的excel文件名
wb = xlwt.Workbook(encoding='utf-8')#excel中的文本编译
ws = wb.add_sheet('sheet1')#在excel中新建一张工作表
headData = ['职位','公司','地址','工资','日期']#标题栏

for colnum in range(0,5):
    ws.write(0,colnum,headData[colnum],xlwt.easyxf('font:bold on'))

for each in range(1,154):
    print('正在爬去第',each,'页')
    index = (each-1)*50+1#每一页约有50条数据
    excel_write(get(get_content(each)),index)
wb.save(newTable)#存储
input('输入任意字符退出:')