您的位置: 首页 > 文章 > 获取数据(爬虫)笔记

获取数据(爬虫)笔记

分类: 文章 • 2025-02-08 20:04:46

获取数据笔记

第一章准备阶段

1 Mongo：把字典存到excel表格里

使用方法：在终端输入“mongod”，始终开着。

client = pymongo.MongoClient(’localhost’,27017)

表名 = clint[‘表名’]

子表名 = 表名[‘子表名’]

子表名.insert_one(数据) ##插入数据

for i in 表格行.find() ##读取表格中每行

a = I[‘列名’] ##取出该行某一列的数据

2 requests: 获取动态网络信息，python包

使用方法：wb_data = requests.get(url)

3 BeautifulSoup：解析网络信息，python包，名字为bs4

使用方法：

获取数据(爬虫)笔记

4 time

使用方法：time.sleep(1)

第二章多进程爬虫的数据爬取

做个比喻：

一个进程占一个cpu

单进程单线程——一个人在一张桌子上吃饭

单进程多线程——多个人在一张桌子上吃饭

多进程单线程——多个人在多张桌子上吃饭（每桌一个人）

多进程多线程——多个人在多张桌子上吃饭（每桌多个人）

所需库：from multiprocessing import Pool

使用方法：

if __name__== ‘__main__’:

pool = Pool(processes = 进程数) ###电脑有几核会自动识别进程数为几