如何用wget linux命令镜像维基百科页面?

问题描述:

我想用镜像wget的Linux命令 我用这个命令如何用wget linux命令镜像维基百科页面?

wget --mirror -p --convert-links -P ./folder-mirror /https://en.wikipedia.org/wiki/Portal:Contents/A–Z_index 

但我只获得该文件 的robots.txt

+0

维基百科不喜欢这种行为。相反,他们提供各种类型的转储。见[这里](https://dumps.wikimedia.org/)。 – gudok

Robot exclusion is on by defaultwget让乡亲被猛拉和递归吞并维基百科页面通过它与其他人的网页和他们的带宽。

您可以在.wgetrc文件将其关闭,或者你使用wget的-e开关,如:-e robots=off

这并不是说,维基百科没有到位进一步安全防范,以确保您的wget没有按不会递归下载所有内容,但它会让wget免于遵守robots.txt和meta。

如果您仍然碰壁,那么可能会修改用户代理或其他方面的内容。

+0

我希望维基百科可以避免递归吞噬。 – Smandoli

+0

OP将对其进行测试。我想知道在维基百科上你需要一切硬盘的大小...... – JNevill

+0

@JNevill如果你尝试下载所有页面(包括页面历史记录,wget会遇到!)作为完全呈现的HTML页面,很容易达到几十兆兆字节。可能有数百个或更多。 – duskwuff

不要这样做。它给维基百科Web服务器带来了巨大的负担,并且您的IP将被阻止。

如果您想要Wikipedia的镜像,请从https://dumps.wikimedia.org/下载其数据库转储。英文维基的最新的完整的转储,截至目前,可在:

https://dumps.wikimedia.org/enwiki/20160407/

如果您只需要使用特定的页面数据,可以考虑使用the MediaWiki API

+0

而且...为什么麻烦托管维基百科的页面。你的网页不会像现实一样新潮。 – Yetti99

+1

@ Yetti99取决于你想要做什么。有很多有趣的分析,你需要直接访问数据来执行。 – duskwuff

+0

我只想知道如何去做,但我不会做 – almgwary