python 爬虫搜狗词库

完整版代码github地址：https://github.com/Monster2848/sougou_dic_spider

目标网站
python 爬虫搜狗词库

下面有分类
python 爬虫搜狗词库
点进社会科学–金融保险分类

我们需要获取的数据是词库标题和词库文件地址

通过查看请求发现这个网页并没有被加密

直接get请求就可以获得完整网页

然后要做的就是找到标题元素和立即下载元素提取内容和 url
python 爬虫搜狗词库
写一下xpath 匹配规则

将爬到的内容保存到文件

以上是从官网爬取的方法
但是如果想要获取完整词库的话推荐去这个网站：http://wubi.sogou.com/dict/list.php?
这个网站更新的蛮快，并且没有设置分类限制，更容易获取数据

python 爬虫 搜狗词库

相关推荐

python 爬虫搜狗词库