如何抓取wordpress博客?

问题描述:

我写了一个c程序来抓取博客。它运行良好,直到它遇到这个博客:www.ipujia.com。我发送HTTP请求:如何抓取wordpress博客?

GET http://www.ipujia.com/ HTTP/1.0

的网站,并得到如下回应:

HTTP/1.1 301 Moved Permanently 
Date: Sun, 27 Feb 2011 13:15:26 GMT 
Server: Apache/2.2.16 (Unix) mod_ssl/2.2.16 OpenSSL/0.9.8e-fips-rhel5 
mod_auth_passthrough/2.1 mod_bwlimited/1.4 FrontPage/5.0.2.2635 mod_perl/2.0.4 
Perl/v5.8.8 
X-Powered-By: PHP/5.2.14 
Expires: Wed, 11 Jan 1984 05:00:00 GMT 
Cache-Control: no-cache, must-revalidate, max-age=0 
Pragma: no-cache 
Last-Modified: Sun, 27 Feb 2011 13:15:27 GMT 
Location: http://http/www.ipujia.com/ 
Content-Length: 0 
Connection: close 
Content-Type: text/html; charset=UTF-8 

这很奇怪,因为我不能得到索引页的位置以下。有没有人有任何想法?

+0

您是否在使用库来做到这一点?如果是这样,那么应该建立一些功能来跟踪响应中包含的重定向。 – gcahill 2011-02-27 13:49:51

+0

你不应该做'GET/HTTP/1.0'吗? – 2011-02-27 13:52:34

+0

看起来好Dan,但考虑到它是一个C程序,它的行为是这样的,我们无法知道这是C程序被调用的方式还是它是实际的请求头。需要更多细节OP。 – 2011-02-27 14:07:39

响应中的位置字段包含格式不正确的URI。

地点:http://http/www.ipujia.com/(注意协议错误) 应

地点:http://www.ipujia.com/

除非你是在服务器的控制有一点,你可以在这里做。

为了解决这个问题,你不能解析“位置”响应,并试图从它提取一个有效的URI?