在活动网站上检索外部洪流统计的最佳方式

在活动网站上检索外部洪流统计的最佳方式

问题描述:

我正在制作一个类似于海盗湾,Kickass.to等的Bittorrent跟踪器/网站。需要在索引中检索洪流统计信息(播种器,下载)和洪流页面。例如:在活动网站上检索外部洪流统计的最佳方式

http://kat.cr/ubuntu-15-04-vivid-vervet-desktop-amd64-iso-final-t10550003.html
播种机:3442个Leechers:148

如果种子是用我的跟踪,可以很容易地快速检索两个页面的数据。但是,如果torrent使用不同的跟踪器,我需要从跟踪器中提取统计信息(向其发送请求),但通常每个torrent需要几秒钟,显然,我无法让用户等待很长时间才能看到上市。

我制作了一个脚本,用于擦除在后台运行的最新的90个种子,但是恐怕这还不够。该网站将长大,总的种子可能会超过5000.我不认为在后台掠夺这么多山洪会起作用。

我该怎么做?

以下策略来获得的统计数据,按降序效率的顺序列出:

  1. 通过刮接口全刮 - 曾经是常见的,没有那么今天大纤夫由于交通它会导致
  2. 通过自定义导出网址进行全面抓取 - 您必须询问跟踪管理员。有时记录在他们的网站
  3. UDP多刮
  4. HTTP多刮通过/scrape?info_hash=A&info_hash=B&info_hash=C - 一些追踪器支持它,有些则不支持。
  5. HTTP单刮
  6. DHT scrape
  7. 加入群和通过PEX
+1

有趣。你介意更多关于#6和#7的解释吗? –

+2

他们在列表的最后是有原因的。刚刚完成。他们不太可能对你的情况有用。但我添加了链接。 – the8472

+0

嗯。我认为这是无法完成的,至少不容易,所以我建议用户使用追踪器。 –

当开放跟踪器使用http时,通常可以按照Tracker 'scrape' Convention进行全面扫描。
现在,当跟踪器使用UDP代替时,不可能再进行全面刮擦。

作为替代,一些开放的跟踪发布在其网站上全擦伤:

其他跟踪器可能会或可能不会根据请求提供此类文件的访问权限。

+0

测量是,刮是不是一个问题。然而,刮大量的山洪获取数据是。 –

+0

通过全面刮擦或下载上述链接,您可以一次性获得当前向跟踪器发布的所有种子的抓取信息。那么你只需要提取你想要的种子的信息。 – Encombe