python 爬取知乎某一关键字数据

python 爬取知乎某一关键字数据

前言

和之前爬取Instagram数据一样,那位同学还需要爬取知乎上面关于该电影的评论。没想到这是个大坑啊。看起来很简单的一个事情就变得很复杂了。

知乎

如果说,有什么事情是最坑的,我感觉就是在知乎上面讨论如何抓取知乎的数据了。在2018年的时候,知乎又进行了一次改版啊。真是一个大坑。网上的代码几乎都不能使用了。只有这里!的一篇文章还可以模拟登陆一下。但是这里的代码使用了很多JavaScript代码:
python 爬取知乎某一关键字数据
这里我也是真的很无力啊。真的不怎么会JavaScript,尤其是这种函数名还算是这个款式的。不过这个代码真的可以登录成功,可以得到登陆生成的cookies。

分析

首先我们看看我们的知乎搜索一个关键词是什么样子的(这里以电影“通勤营救”为例):
python 爬取知乎某一关键字数据
这时候我们在fidler中看到的数据是这样的:
python 爬取知乎某一关键字数据
访问的网址是:https://www.zhihu.com/search?type=content&q=%E9%80%9A%E5%8B%A4%E8%90%A5%E6%95%91
但是我们可以看到的是里面返回的数据是空的!!!也就是说,是有其他请求存在的。
我们再向下找一找,嗯,找到了!
python 爬取知乎某一关键字数据
但是我们看看他是怎么请求的?
python 爬取知乎某一关键字数据

这里我们可以看到在这里和Instagram那个一样!!!
大概此贴Over了

另一种思路

在手机视图下进行

主要是看到上面的以后突然间对我之前用这个方法做的提不起来兴趣讲解了。算了,直接附上github代码吧.
里面有一点https://zhuanlan.zhihu.com/p/32898234的代码,虽然没用上,但是也懒得删除了
github:https://github.com/anonymouslycn/zhihubot