您的位置: 首页 > 文章 > Python爬虫始于此（二）

Python爬虫始于此（二）

分类: 文章 • 2023-12-01 13:18:04

WebScraping (Day 2)
*** get and post request ***
Preparation: python 3.7, requests， re
主要任务：爬取豆瓣电影 Top 250里的内容包括名次、影片名称、国家、导演等字段。

查看豆瓣电影网页
2. 尝试爬取网页，获取前25部电影名

Python爬虫始于此（二）
3. 正式开爬

4. 总结
regex 之变幻让人为之惊叹。本想返回所有top250，但最后一个导演的问题无法爬取。最终只返回top200。
5. 文献
http://funhacks.net/2016/12/27/regular_expression/#匹配中文
 https://www.cnblogs.com/carpenterworm/p/6042210.html