如何停止tcl web服务器上的蜘蛛/爬虫程序

问题描述：

我有一个应用程序将托管在tclhttpd服务器上。我想知道是否有阻止网络爬虫读取目录结构的方法。 PS：我阅读了robots.txt。但是我发现的问题是，即使我提供robots.txt文件，也无法阻止bot阅读更多内容。任何帮助都非常令人满意。 TIA如何停止tcl web服务器上的蜘蛛/爬虫程序

这不是一个编程问题。你最好过问超级用户。使用防火墙，使用黑名单。使用验证。 –

答

有几种方法可以做到这一点，但最简单的方法是将Tcl webserver放在nginx实例后面。（Apache也能工作，但我不喜欢配置apache;它不会像我想的那样工作。）然后，您可以使用所有常用的配方来处理为该系统记录的蜘蛛和爬虫。您还可以使用负载平衡配置将多个服务器放在单个端口后面。有很多选择，取决于你想做多少工作以及你的预算是多少。

但是，这些都不是真正的编程解决方案，而是部署解决方案。因此，他们可以在其他Stack Exchange站点（如Server Fault）上得到更好的回答。最好的部分是Tcl程序倾向于运行相当轻量级，因此将多个实例放在一台服务器上是非常实用的。

谢谢你的回答 –

如何停止tcl web服务器上的蜘蛛/爬虫程序

相关推荐