爬取网页是发现文本乱码问题
这两天开始学习爬虫,发现爬取网站时,爬下来的源码里面的文本内容乱码,奇怪的是有的网站没有乱码,有的网站乱码了,查找资料时发现,这是由于每个网站的编码方式差异造成的。
这个是爬取内涵段子时的源代码,当打印网页源代码时,发现文本信息乱码:
然后我又试了下****的网站:
发现文本信息并没有乱码
在网上查找资料知道,每个网站的编码方式不一样,查看每个网址的编码方式可以打开浏览器的管理者工具来查看,以chrome为例,打开F12管理者工具:
这样可以看到****网站上的编码方式为UTF-8
内涵段子的编码方式为GBK,而我使用的pycharm的编码方式为UTF-8:
因此我爬取网页的时候,****上的文本没有乱码,而内涵段子的网页文本发生了乱码
=========================================================================
解决方法:
因为我的编码器的编码格式为UTF-8,但是网页编码方式为GBK,因为我要先将源代码进行GBK解码,然后再进行UTF编码:
这样就大功告成了!!!