Python网络爬虫——周报1
一、本周情况:
1.1 书籍学习
-
第一部分:创建爬虫
- 初见网络爬虫
- 复杂的HTML解析
- 开始采集
- 使用API
- 存储数据
- 读取文档
二、课程笔记:
- 本部分练习代码在我的github仓库:https://github.com/Alextaotao/Python-network-data-collection
三、下周计划:
3.1、书籍学习
-
第二部分: 高级数据采集
- 数据清洗
- 自然语言处理
- 穿越网页表单与登录窗口进行采集
- 采集javascript
- 图像识别与文字处理
- 避开采集陷阱
- 用爬虫测试网站
- 远程采集