【爬虫】爬虫问题收集【持续】
文章目录
一、文件导出到本地:
1.1、导出为txt
1.1.1 导出时覆盖原有内容:
w:清楚原有内容,重新写入
a:追加写入
1.1.2 文件乱码
加入encoding = 'utf-8’、‘utf-8-sig’、‘gbk’
1.2、导出为csv
尽量用pandas处理后,通过pandas导入
二、scrapy
2.1 运行命令
进入存储代码的目录下(命令行下),scrapy crawl+文件名
2.2 导入报错
导入时文件名称不对 :
news.items 的news要对应上一级文件夹的名称
NewsItem,要是items文件的类名称一致
报错示意:
三、网页检查时看到数据,但是写代码时无数据
网页为json格式(简单判断方法(机率60%是正确的的_):刷新有变化的,或感觉会有滚动变化的数据)
四、获取内容位数问题
为什么取0,是因为如下标签中列表的第一位符合要求
五、标签格式问题
5.1标签取不全,级别搞错。
如下,箭头所示,section和article是同级标签,容易漏class,或者多加空格,变为了不同级别的class
5.2 所选标签中有乱入的
能获取信息,但是还会报错,说明不是所有的内容都有符合条件的属性,用try…else…解决,
有时可以用if,if为真,则执行
六、网页查找标签时的快捷键
点出网页信息:谷歌浏览器操作, 空白处 右键–检查
打开地址栏:ctrl+F
找headers信息:Newwork,然后F5刷新,找到第一条信息
找json数据
7、requests+bs4爬虫时一些细节(整理)
7.1 不熟悉的话,没有把握的话,没选一个标签做一次打印
7.2 测试时不要太频繁,容易封ip
7.3 自己用的爬虫代码尽量散开写,容易检查,除非有其他追求。