获取数据(爬虫)笔记
获取数据笔记
第一章 准备阶段
1 Mongo:把字典存到excel表格里
使用方法:在终端输入“mongod”,始终开着。
client = pymongo.MongoClient(’localhost’,27017)
表名 = clint[‘表名’]
子表名 = 表名[‘子表名’]
子表名.insert_one(数据) ##插入数据
for i in 表格行.find() ##读取表格中每行
a = I[‘列名’] ##取出该行某一列的数据
2 requests: 获取动态网络信息,python包
使用方法:wb_data = requests.get(url)
3 BeautifulSoup:解析网络信息,python包,名字为bs4
使用方法:
4 time
使用方法:time.sleep(1)
第二章 多进程爬虫的数据爬取
做个比喻:
一个进程占一个cpu
单进程单线程——一个人在一张桌子上吃饭
单进程多线程——多个人在一张桌子上吃饭
多进程单线程——多个人在多张桌子上吃饭(每桌一个人)
多进程多线程——多个人在多张桌子上吃饭(每桌多个人)
所需库:from multiprocessing import Pool
使用方法:
if __name__== ‘__main__’:
pool = Pool(processes = 进程数) ###电脑有几核会自动识别进程数为几