如何停止tcl web服务器上的蜘蛛/爬虫程序
问题描述:
我有一个应用程序将托管在tclhttpd服务器上。我想知道是否有阻止网络爬虫读取目录结构的方法。 PS:我阅读了robots.txt。但是我发现的问题是,即使我提供robots.txt文件,也无法阻止bot阅读更多内容。 任何帮助都非常令人满意。 TIA如何停止tcl web服务器上的蜘蛛/爬虫程序
答
有几种方法可以做到这一点,但最简单的方法是将Tcl webserver放在nginx实例后面。 (Apache也能工作,但我不喜欢配置apache;它不会像我想的那样工作。)然后,您可以使用所有常用的配方来处理为该系统记录的蜘蛛和爬虫。您还可以使用负载平衡配置将多个服务器放在单个端口后面。有很多选择,取决于你想做多少工作以及你的预算是多少。
但是,这些都不是真正的编程解决方案,而是部署解决方案。因此,他们可以在其他Stack Exchange站点(如Server Fault)上得到更好的回答。最好的部分是Tcl程序倾向于运行相当轻量级,因此将多个实例放在一台服务器上是非常实用的。
+0
谢谢你的回答 –
这不是一个编程问题。你最好过问超级用户。使用防火墙,使用黑名单。使用验证。 –