python 爬取编码(charset)为gbk的网页
最近因为安卓作业需要,要对王者荣耀的官方网站进行爬取,然而在最开始便遇到了一些问题,王者荣耀官网的网页charset=gbk,所以爬取时需要进行编码转换,然而转换后却依旧中文乱码,经过查找,发现以下两种解决办法:
第一种:
req = requests.get(headers=header, url=url)
content = req.content
print content.encode('utf-8')
然后将输出流到某一文件中,用utf-8编码打开:
第二种:
req = requests.get(headers=header, url=url)
req.encoding = "gbk"
print req.content
然后用gbk编码打开文件: