为什么是验证爬虫
问题描述:
从谷歌的支持网站所需的正向DNS -为什么是验证爬虫
验证Googlebot作为来电:
运行使用的访问IP地址反向DNS查找从日志, 主机命令。确认域名位于 googlebot.com或google.com在域名 域名 上使用检索到的 域名上的host命令运行正向DNS查找。验证它是否与原始访问IP 地址的日志相同。
我的问题是为什么正向DNS查找是必需的?攻击者可以创建一个形式为crawl-xx-xx-xx-xx.googlebot.com
的DNS记录吗?
我实际上在我的日志中也看到了这个 - 来自其他爬虫。叶的,如果我反向DNS查找来自正确的域名,但正向查找不会返回IP。想知道这怎么可能..
答
反向区域可以由任何人提供服务。如果您拥有IP空间,并让您的isp转发反向查找,则可以提供指向您想要的任何内容的反向区域。
作为一个攻击者能买到的任何IP块,并为我区4.3.2.1.in-addr.arpa
,说所有的记录都在crawl-xx-xx-xx-xx.googlebot.com
我无法控制谷歌的该区域正向DNS虽然。所以即使我可以得到1.2.3.4
的反向查找以返回crawl-12-34-56-78.googlebot.com
,但我无法在crawl-12-34-56-78.googlebot.com
上进行正向查找以返回1.2.3.4
。
您的日志中的不一致条目几乎可以肯定是第三方机器人试图(很好地)模仿谷歌。
谢谢,这很清楚。我看到很多百度蜘蛛UA现在也有这种确切的行为。我想知道所有主要的搜索引擎爬虫是否坚持这种做法? – WeaselFox