抓取网址\如何获取node.js中的动态链接

问题描述：

我使用js爬虫爬取网站，现在遇到CNN，its landing page links are inside（由于某种原因动态生成的网址）的一部分。事情是爬行者不真的触及脚本 - 我应该如何解决它？除了我的node.js爬虫之外，我还应该写自己的代码吗？有知道如何处理这种动态行为的高级爬虫吗？抓取网址如何获取node.js中的动态链接

客户端Javascript生成的抓取内容是一个复杂的问题，甚至连Google都没有完全解决。真正做到这一点的唯一方法是在服务器上使用某种无头浏览器，将页面加载到类似浏览器的环境中，在该环境中它可以运行自己的脚本并生成自己的内容，然后检查结果DOM。即使这样，它也不一定会生成需要用户交互的内容（如点击标签显示一些内容）。 – jfriend00

使它反应，所以我可以投票！谢谢 – user1025852

答

使我的评论到一个答案：

爬行由客户端JavaScript生成的内容是一个复杂的问题，甚至不是谷歌已经完全解决。

真正做到这一点的唯一方法是使用某种无头浏览器，它安全地在您的服务器上进行沙盒处理，将页面加载到类似浏览器的环境中，在该环境中它可以运行自己的脚本并生成它自己的脚本内容，然后您可以检查生成的DOM。即使到那时，它也不一定会生成需要用户交互的内容（如点击标签显示一些内容）。

抓取网址\如何获取node.js中的动态链接

相关推荐