如何用wget linux命令镜像维基百科页面?
问题描述:
我想用镜像wget的Linux命令 我用这个命令如何用wget linux命令镜像维基百科页面?
wget --mirror -p --convert-links -P ./folder-mirror /https://en.wikipedia.org/wiki/Portal:Contents/A–Z_index
但我只获得该文件 的robots.txt
答
Robot exclusion is on by default在wget
让乡亲被猛拉和递归吞并维基百科页面通过它与其他人的网页和他们的带宽。
您可以在.wgetrc
文件将其关闭,或者你使用wget的-e
开关,如:-e robots=off
这并不是说,维基百科没有到位进一步安全防范,以确保您的wget没有按不会递归下载所有内容,但它会让wget免于遵守robots.txt和meta。
如果您仍然碰壁,那么可能会修改用户代理或其他方面的内容。
答
不要这样做。它给维基百科Web服务器带来了巨大的负担,并且您的IP将被阻止。
如果您想要Wikipedia的镜像,请从https://dumps.wikimedia.org/下载其数据库转储。英文维基的最新的完整的转储,截至目前,可在:
https://dumps.wikimedia.org/enwiki/20160407/
如果您只需要使用特定的页面数据,可以考虑使用the MediaWiki API。
维基百科不喜欢这种行为。相反,他们提供各种类型的转储。见[这里](https://dumps.wikimedia.org/)。 – gudok