为什么是验证爬虫

问题描述：

从谷歌的支持网站所需的正向DNS -为什么是验证爬虫

验证Googlebot作为来电：

运行使用的访问IP地址反向DNS查找从日志，主机命令。确认域名位于 googlebot.com或google.com在域名域名上使用检索到的域名上的host命令运行正向DNS查找。验证它是否与原始访问IP 地址的日志相同。

我的问题是为什么正向DNS查找是必需的？攻击者可以创建一个形式为crawl-xx-xx-xx-xx.googlebot.com的DNS记录吗？

我实际上在我的日志中也看到了这个 - 来自其他爬虫。叶的，如果我反向DNS查找来自正确的域名，但正向查找不会返回IP。想知道这怎么可能..

答

反向区域可以由任何人提供服务。如果您拥有IP空间，并让您的isp转发反向查找，则可以提供指向您想要的任何内容的反向区域。

作为一个攻击者能买到的任何IP块，并为我区4.3.2.1.in-addr.arpa，说所有的记录都在crawl-xx-xx-xx-xx.googlebot.com

我无法控制谷歌的该区域正向DNS虽然。所以即使我可以得到1.2.3.4的反向查找以返回crawl-12-34-56-78.googlebot.com，但我无法在crawl-12-34-56-78.googlebot.com上进行正向查找以返回1.2.3.4。

您的日志中的不一致条目几乎可以肯定是第三方机器人试图（很好地）模仿谷歌。

谢谢，这很清楚。我看到很多百度蜘蛛UA现在也有这种确切的行为。我想知道所有主要的搜索引擎爬虫是否坚持这种做法？ – WeaselFox