Facebook页面详细信息和RESTful API?

Facebook页面详细信息和RESTful API?

问题描述:

您好我拥有Facebook页面的URL列表Facebook页面详细信息和RESTful API?

eg... 
http://www.facebook.com/daftpunk 
http://www.facebook.com/DavidGuetta 
... 

什么是最好的办法:

  • 检查如果这些网址实际上的Facebook网页和档案

  • 收藏牛逼细节从这些页面

帮助,例如#的球迷将是非常赞赏。

没有刮任何内容(这是对服务的Facebook的条款反正):在 www.facebook.com/

  • 做一个后

    1. 提取URL 的用户名部分即位形式的FQL查询select fan_count from page where username='michaeljackson'
    2. 如果结果是返回,您知道这是一个 页,而不是用户的配置文件。

    查看Page FQL table了解可以在同一个调用中检索到的其他数据。

  • +0

    这正是我所做的!谢谢,虽然,将有非常有用的昨天。upvoted – RadiantHex 2010-01-21 15:11:57

    您可以使用scrapyBeautifulSoup来刮取内容。

    使用urllib2pyfacebook获取内容

    使用BeautifulSouplxml解析它

    使用re模块(正则表达式)提取内容的验证和数据采集

    +0

    对不起,仍然不能帮助我** **粉丝** :( – RadiantHex 2010-01-20 22:01:47

    +0

    你必须自己提取,也许使用正则表达式。更新了答案。 – 2010-01-20 22:52:03

    +0

    好吧,我发现如何获得#的粉丝,这些字段值在RESTful API中没有引用,您可以在这里查看http://wiki.developers.facebook.com/index.php/Pages.getInfo#Response fan_count在FQL查询中可用。你建议刮去的网址,因此我的数据与BeautifulSoup或lxml? – RadiantHex 2010-01-20 23:03:50

    的#的球迷是在一个类'FanManager'的标签。你可以使用美丽的汤来获取这个标签的内容,并使用正则表达式从字符串(例如:1,000,000个粉丝)获取数据作为int或任何你想要的。

    要查看页面是否存在,请检查一些标签以查看您是否在404页面上。