Python爬虫始于此(二)

WebScraping (Day 2)
*** get and post request ***
Preparation: python 3.7, requests, re
主要任务:爬取豆瓣电影 Top 250里的内容包括名次、影片名称、国家、导演等字段。

  1. 查看豆瓣电影网页
    Python爬虫始于此(二)2. 尝试爬取网页,获取前25部电影名
    Python爬虫始于此(二)

Python爬虫始于此(二)
3. 正式开爬
Python爬虫始于此(二)
4. 总结
regex 之变幻让人为之惊叹。本想返回所有top250,但最后一个导演的问题无法爬取。 最终只返回top200。
5. 文献
http://funhacks.net/2016/12/27/regular_expression/#匹配中文
https://www.cnblogs.com/carpenterworm/p/6042210.html