查询维基百科数据页面

问题描述:

我无法理解维基百科API。查询维基百科数据页面

孤立一个链接,通过处理JSON,我得到的响应将请求发送到http://en.wikipedia.org/w/api.php

假设我得到了以下link,我如何才能像最新信息的访问后,出生等

我正在使用python。我试图做一个

import urllib2,simplejson 
search_req = urllib2.Request(direct_url_to_required_wikipedia_page) 
response = urllib2.urlopen(search_req) 

我已经尝试阅读api。但是,我无法弄清楚如何从特定页面提取数据。

+0

你看过[docs](https://www.mediawiki.org/wiki/API:Main_page)吗? – Bergi 2012-07-13 14:28:25

尝试:

import urllib 
import urllib2 
import simplejson 

url = 'http://en.wikipedia.org/w/api.php' 
values = {'action' : 'query', 
      'prop' : 'revisions', 
      'titles' : 'Jennifer_Aniston', 
      'rvprop' : 'content', 
      'format' : 'json'} 

data = urllib.urlencode(values) 
req = urllib2.Request(url, data) 
response = urllib2.urlopen(req) 
json = response.read() 

变量JSON是维基百科页面的JSON。你现在可以用simplejson或其他任何方式解析它...

转到MediaWiki API。它更好地组织起来,对人类友好:-)。

你不会从API那里得到像出生日期这样的信息,至少不是直接的。您可以做的最好的方式是获取页面的代码(或呈现的HTML)并解析它以获取所需的信息。

作为替代方案,您可能需要查看DBpedia

+0

我知道,我无法直接获取该信息。我试着直接下载页面,它给了我一个403错误。我无能为力。不管怎么说,多谢拉。 – garak 2012-07-13 14:18:14

+0

如果您获得403,请阅读[维基媒体用户代理策略](http://meta.wikimedia.org/wiki/User-Agent_policy)。 – svick 2012-07-13 15:56:47