从维基百科页面获取xml
我试图从xml解析维基百科页面。 我使用特殊:导出链接以获取页面的就是那样的链接XML:从维基百科页面获取xml
http://en.wikipedia.org/wiki/Special:Export/Bruce_Willis
但是,当我试图让我不能使用这个链接文件或目录页,例如,该页面不返回XML:
的http:// en.wikipedia.org/wiki/Special:Export/Category:English-language_films
的http:// en.wikipedia.org /wiki/Special:Export/File:Bruce_Willis_by_Gage_Skidmore.jpg
我找到了一个解决方案,但我不明白:
- 将名称空间添加到页面名称的前缀(例如, 'Help:Contents'), ,除非选定的命名空间是主命名空间。
- 重复上述用于其他命名空间的步骤(如产品类别: 模板:等)
将该溶液我发现在http://meta.wikimedia.org/wiki/Help:Export。 这是什么意思请。
谢谢。
Special:Export
生成给定页面的内容,但'类别的文章列表'或'文件'不是页面。你从导出得到的只是类别或文件描述页面的xml。
以检索的beloning到某一类页的列表,你需要MediaWiki的API:Categorymembers .
尝试this example。您也可以玩弄API Sandbox以了解不同的参数。
无法直接下载文件。但是,imageinfo
API可以为您生成文件的URL,例如this example。
谢谢,这是非常有帮助的 – 2013-02-13 17:31:23
嗨,我不知道你在说什么。 http://en.wikipedia.org/wiki/Special:Export/Category:English-language_films确实为我生成了一个XML。你是在寻找一个类别中的__页面_而不是? – BenMQ 2013-02-12 13:14:15
是的,那我在找什么 – 2013-02-12 14:40:34