【爬虫】爬虫问题收集【持续】

一、文件导出到本地：

1.1.1 导出时覆盖原有内容：
w：清楚原有内容，重新写入
a：追加写入
【爬虫】爬虫问题收集【持续】
1.1.2 文件乱码
加入encoding = 'utf-8’、‘utf-8-sig’、‘gbk’

尽量用pandas处理后，通过pandas导入

进入存储代码的目录下（命令行下），scrapy crawl+文件名

导入时文件名称不对：
news.items 的news要对应上一级文件夹的名称
NewsItem，要是items文件的类名称一致
【爬虫】爬虫问题收集【持续】

报错示意：

网页为json格式（简单判断方法（机率60%是正确的的^_）：刷新有变化的，或感觉会有滚动变化的数据）

【爬虫】爬虫问题收集【持续】

为什么取0，是因为如下标签中列表的第一位符合要求
【爬虫】爬虫问题收集【持续】

如下，箭头所示，section和article是同级标签，容易漏class，或者多加空格，变为了不同级别的class
【爬虫】爬虫问题收集【持续】

能获取信息，但是还会报错，说明不是所有的内容都有符合条件的属性，用try…else…解决，
有时可以用if，if为真，则执行
【爬虫】爬虫问题收集【持续】

点出网页信息：谷歌浏览器操作，空白处右键–检查
【爬虫】爬虫问题收集【持续】
打开地址栏：ctrl+F

找headers信息：Newwork，然后F5刷新，找到第一条信息

找json数据

7.1 不熟悉的话，没有把握的话，没选一个标签做一次打印
7.2 测试时不要太频繁，容易封ip
7.3 自己用的爬虫代码尽量散开写，容易检查，除非有其他追求。