从维基百科页面获取xml

问题描述：

我试图从xml解析维基百科页面。我使用特殊：导出链接以获取页面的就是那样的链接XML：从维基百科页面获取xml

但是，当我试图让我不能使用这个链接文件或目录页，例如，该页面不返回XML：

的http：// en.wikipedia.org/wiki/Special:Export/Category:English-language_films

的http：// en.wikipedia.org /wiki/Special:Export/File:Bruce_Willis_by_Gage_Skidmore.jpg

我找到了一个解决方案，但我不明白：

将该溶液我发现在http://meta.wikimedia.org/wiki/Help:Export。这是什么意思请。

谢谢。

嗨，我不知道你在说什么。 http://en.wikipedia.org/wiki/Special:Export/Category:English-language_films确实为我生成了一个XML。你是在寻找一个类别中的__页面_而不是？ – BenMQ 2013-02-12 13:14:15

是的，那我在找什么 – 2013-02-12 14:40:34

答

Special:Export生成给定页面的内容，但'类别的文章列表'或'文件'不是页面。你从导出得到的只是类别或文件描述页面的xml。

以检索的beloning到某一类页的列表，你需要MediaWiki的API：Categorymembers .

尝试this example。您也可以玩弄API Sandbox以了解不同的参数。

无法直接下载文件。但是，imageinfo API可以为您生成文件的URL，例如this example。

谢谢，这是非常有帮助的 – 2013-02-13 17:31:23