抓取网址\如何获取node.js中的动态链接

问题描述:

我使用js爬虫爬取网站,现在遇到CNN,its landing page links are inside(由于某种原因动态生成的网址)的一部分。 事情是爬行者不真的触及脚本 - 我应该如何解决它?除了我的node.js爬虫之外,我还应该写自己的代码吗?有知道如何处理这种动态行为的高级爬虫吗?抓取网址如何获取node.js中的动态链接

+1

客户端Javascript生成的抓取内容是一个复杂的问题,甚至连Google都没有完全解决。真正做到这一点的唯一方法是在服务器上使用某种无头浏览器,将页面加载到类似浏览器的环境中,在该环境中它可以运行自己的脚本并生成自己的内容,然后检查结果DOM。即使这样,它也不一定会生成需要用户交互的内容(如点击标签显示一些内容)。 – jfriend00

+0

使它反应,所以我可以投票!谢谢 – user1025852

使我的评论到一个答案:

爬行由客户端JavaScript生成的内容是一个复杂的问题,甚至不是谷歌已经完全解决。

真正做到这一点的唯一方法是使用某种无头浏览器,它安全地在您的服务器上进行沙盒处理,将页面加载到类似浏览器的环境中,在该环境中它可以运行自己的脚本并生成它自己的脚本内容,然后您可以检查生成的DOM。即使到那时,它也不一定会生成需要用户交互的内容(如点击标签显示一些内容)。