您的位置: 首页 > 文章 > 抓取网页出现乱码

抓取网页出现乱码

分类: 文章 • 2024-10-18 09:43:46

锟斤拷

是一串经常在搜索引擎页面和其他网站上看到的乱码字符。乱码源于GBK字符集和Unicode字符集之间的转换问题。
百度百科：https://baike.baidu.com/item/锟斤拷/8263356?fr=aladdin
抓取网页出现乱码

抓取网页出现乱码

requests解决方案：

import requests
url = ''http://******************.com/****************************.htm'
res = requests.get(url)
res.encoding=res.apparent_encoding  #获取网页正确的编码格式
print(res.text)

requests_html解决方案

from  requests_html import HTMLSession
session=HTMLSession()
base_url = 'http://***************.com/************************************.htm'
res = session.get(base_url,timeout=3,verify=False)
res.encoding=res.apparent_encoding
print(res.text)

scrapy 解决方案

res =(request.text).encode('cp1252').decode('gbk')

本文仅学习交流，不做商业
参考传送门：https://www.cnblogs.com/laolv/p/7397429.html