用HttpClient抓取人人网高校数据库（省，高校，院系三级级联）

来自：http://www.iteye.com/topic/826988

更新备注：将src文件改成了一个完整的项目，解压后可以直接导入到Eclipse中去，省去大家配置（项目乱码请改项目属性为GBK）。另外，如果你要登陆人人网的话，需要申请一个人人网账号。这里提供公用的:\

java123456

请自行修改RenRenNotify.java 对应的东西。

首先文章有点长，需要点耐心。这里我是一步一步的做的。。。。比较的细，如果你是代码达人，那你就直接下载代码吧。

有人说图片看不清，我抱歉，第一次咱的图片不完美，你把图片在浏览器上拖动到新窗口，就可以看到你大图了。

需求来源，最近学校的课程项目需要一个省，高校，院系的三级级联的东西，这下麻烦了。全国那么多的高校，而且每一个高校的院系设置又不一样，我们小组只有六个人，而且技术都不咋地，要统计那么多的数据，我们估计这学期就别想完成这个项目了。但是我们知道人人网，开心网，腾讯微博上都要高校的数据库，于是想法就产生了：

1.要么咱拼人品让他们的技术人员给我们他们的数据库，想法是好的，但是人家不肯呀

2.要么咱通过某种手段获取他们的数据

今天，咱选择第二种。用到工具有：

EditPlus：小巧好用的文本编辑器，是超越的文本编辑器，不解释，用了就知道

Apanta：这个强烈推荐，用它来写Html,Javascript,Css感觉非常好，而且支持各种各样的Javascript的库，如：

Jquery，但是我想把他集成到MyEclipse上去，出了一点问题，遗憾，弄的我只能同时开启两个。

HttpAnalyzer：这个是用来抓包用的，无论什么包统统抓，不过只能抓Http协议的包，当年傻，分析飞信协议的时候，

用这个抓，结果只抓了一点东西。如果你想抓取更底层的推荐一个：WireShark，免费的好用的。

MyEclipse:这个不多说了，弄过J2EE的应该都知道的。

另外就是第三Jar包了，HttpClient 4.01 请到：http://hc.apache.org/downloads.cgi下载，只要是4版本上的都应该可以，如果是3.1版本的估计你要重新写一些代码，因为4较3还是有很大的改进的。

一般来说，一个网站对访问它内部的东西需要权限的验证的，比如你下载某个网站的东西，他会提示说只有会员才可以下载，于是乎，这里存在一个session，保存了你的登陆信息也就是你的访问网站内部资源的权限了。人人网估计也不是省油的灯（这里有问题，后面解释），于是我们应该登陆它才能获得访问它内部资源的权限。那么我们首先来抓包分析应该怎么用登陆，于是HttpAnalyzer闪亮登场.

打开HttpAnalyzer，让他开始工作，我们打开浏览器，输入renren.com。第一次咱先不急着登陆。我们随便输入一个账号密码看看：

用HttpClient抓取人人网高校数据库（省，高校，院系三级级联）

我们看到当你输入用户名密码后就将你输入的东西post到：http://www.renren.com/PLogin.do,

其中PostData有四个：email,password,origURL,domain。至于后面的数据是我们刚刚在登陆页面上填写的数据。

我们再来看看它登陆页面的源代码：

用HttpClient抓取人人网高校数据库（省，高校，院系三级级联）

注意我红色标注的地方：我们注意到，除了我们刚刚在上面发送的数据还有其他的隐藏发送的的东西：例如：origURL等等，这里他们是<input type="hidden" />，应该说在form里面的input都应该发送过去，但是这里他只发送了四个。

既然postdata只有那么四个参数，那我们就姑且只用那个四个东西好了。

所以我们用HttpClient构造请求的时候，就应该将这四个参数的给附带进去，部分代码如下：

Java代码

//将要发送的数据封包

List<NameValuePair>params=newArrayList<NameValuePair>();

params.add(newBasicNameValuePair("email",this.email));

params.add(newBasicNameValuePair("password",this.password));

params.add(newBasicNameValuePair("origURL",origURL));

params.add(newBasicNameValuePair("domain",domain));

接下来我们来完整登陆一次:

当输入正确的用户名密码，点击登陆，我们又获得什么样的东西呢？参见如下：

用HttpClient抓取人人网高校数据库（省，高校，院系三级级联）

返回的内容意思大概是地址转变了要进行跳转，而且返回的相应头是 302，文件修改了。再看一下返回的消息头：

用HttpClient抓取人人网高校数据库（省，高校，院系三级级联）

有一个Location，应该是要我们跳转的地址。这样我们应该可以访问人人网的任意连接资源了。

登录过程的完整代码（包含读嗅探指定资源的链接）：

Java代码

importjava.io.IOException;

importjava.io.UnsupportedEncodingException;

importjava.util.ArrayList;

importjava.util.List;

importorg.apache.http.HttpResponse;

importorg.apache.http.NameValuePair;

importorg.apache.http.client.ClientProtocolException;

importorg.apache.http.client.ResponseHandler;

importorg.apache.http.client.entity.UrlEncodedFormEntity;

importorg.apache.http.client.methods.HttpGet;

importorg.apache.http.client.methods.HttpPost;

importorg.apache.http.impl.client.BasicResponseHandler;

importorg.apache.http.impl.client.DefaultHttpClient;

importorg.apache.http.message.BasicNameValuePair;

importorg.apache.http.protocol.HTTP;

/**

*

*

*Author:Saitkey<[email protected]>

*/

publicclassRenRenNotify{

privatestaticHttpResponseresponse;

privatestaticDefaultHttpClienthttpClient;

publicRenRenNotify(StringuserName,Stringpassword){

this.httpClient=newDefaultHttpClient();

StringloginForm="http://www.renren.com/PLogin.do";

StringorigURL="http://www.renren.com/Home.do";

Stringdomain="renren.com";

//在首页表单上是隐藏的抓包后分析，并没有发送到服务器

//StringautoLogin="true";

//构造一个POST请求，利用Httclient提供的包

HttpPosthttpPost=newHttpPost(loginForm);

//将要发送的数据封包

List<NameValuePair>params=newArrayList<NameValuePair>();

params.add(newBasicNameValuePair("email",userName));

params.add(newBasicNameValuePair("password",password));

params.add(newBasicNameValuePair("origURL",origURL));

params.add(newBasicNameValuePair("domain",domain));

//封包添加到Post请求

try{

httpPost.setEntity(newUrlEncodedFormEntity(params,HTTP.UTF_8));

}catch(UnsupportedEncodingExceptione1){

//TODOAuto-generatedcatchblock

e1.printStackTrace();

}

//将get和post方法包含到一个函数里面去,这里就是登陆过程了。

response=postMethod(httpPost);

/*

*有跳转System.out.println(response.getStatusLine());//返回302

*Header[]headers=response.getAllHeaders();for(inti=0;i<

*headers.length;i++){Headerheader=headers[i];

*System.out.println(header.getName()+":"+header.getValue());}

*/

//读取跳转的地址

//StringredirectUrl=response.getFirstHeader("Location").getValue();

//查看一下跳转过后，都出现哪些内容.

//response=getMethod(redirectUrl);//函数见后面

//System.out.println(response.getStatusLine());//HTTP/1.1200OK

//读取一下主页都有什么内容已经登陆进去

//System.out.println(readHtml("http://www.renren.com/home"));

}

//嗅探指定页面的代码

publicStringnotify(Stringurl){

HttpGetget=newHttpGet(url);

ResponseHandler<String>responseHandler=newBasicResponseHandler();

Stringtxt=null;

try{

txt=httpClient.execute(get,responseHandler);

}catch(ClientProtocolExceptione){

e.printStackTrace();

}catch(IOExceptione){

e.printStackTrace();

}finally{

get.abort();

}

returntxt;

}

//用post方法向服务器请求并获得响应，因为post方法要封装参数，因此在函数外部封装好传参

publicHttpResponsepostMethod(HttpPostpost){

HttpResponseresp=null;

try{

resp=httpClient.execute(post);

}catch(ClientProtocolExceptione){

e.printStackTrace();

}catch(IOExceptione){

e.printStackTrace();

}finally{

post.abort();

}

returnresp;

}

//用get方法向服务器请求并获得响应

publicHttpResponsegetMethod(Stringurl){

HttpGetget=newHttpGet(url);

HttpResponseresp=null;

try{

resp=httpClient.execute(get);

}catch(ClientProtocolExceptione){

e.printStackTrace();

}catch(IOExceptione){

e.printStackTrace();

}finally{

get.abort();

}

returnresp;

}

publicstaticvoidmain(String[]args){

RenRenNotifynotify=newRenRenNotify("[你的用户名]",

"[你的密码]");

System.out.println(notify

.notify("http://www.renren.com/home"));

}

}

好了，现在登录了。我们去修改自己的教育信息吧，首先自然是进入相应的页面：

当我们进入了修改教育信息的时候，我们发现HttpAnalyzer里面多了如下内容：

用HttpClient抓取人人网高校数据库（省，高校，院系三级级联）

注意红色的内容。这里应该是所有高校的信息。体积也达到了402kb，看一下里面的内容：

用HttpClient抓取人人网高校数据库（省，高校，院系三级级联）

这个里面有个奇怪的东西：\u4e2d\u56fd 这个是 “中国”的意思，经过转码了。用JavaScript 直接 alert('u4e2d\u56fd ')，就明了了。

对于一长串的字符，可以用下面的代码进行回来（code是源）：

Java代码

StringBuffersb=newStringBuffer(code);

intpos;

while((pos=sb.indexOf("\\u"))>-1){

Stringtmp=sb.substring(pos,pos+6);

sb.replace(pos,pos+6,Character.toString((char)Integer

.parseInt(tmp.substring(2),16)));

}

code=sb.toString();

接下来，我们选择一个高校看看，HttpAnalyzer里面出现如下的信息：

用HttpClient抓取人人网高校数据库（省，高校，院系三级级联）

再来一下：

用HttpClient抓取人人网高校数据库（省，高校，院系三级级联）

所以通过上面两次抓取，我们应该得出一个例子，那就是：我们选择好了一个大学，就会相应的得出他的ID，然后这时候会想服务器发送一个请求查询：http://www.renren.com/GetDep.do?id=13003，其中id后面的便是高校的代号了。然后返回的是一串html代码，如下：

用HttpClient抓取人人网高校数据库（省，高校，院系三级级联）

这里同样是奇怪的一串数字，这种也是Unicode，不过是十进制的，而且在编码的前后分别加上“&#”和“；”就可以形成Html实体字符，可以在网页上直接显示。

对于以上的代码，我们也参照上面写一个转换的代码：如下：

Java代码

StringBuffersb=newStringBuffer(code);

intpos;

while((pos=sb.indexOf("&#"))>-1){

Stringtmp=sb.substring(pos+2,pos+7);

sb.replace(pos,pos+8,Character.toString((char)Integer.parseInt(tmp,10)));

}

code=sb.toString();

写到这里，我们的工作也做了一大半了。于是乎，我这里不得不跟大家陈清一个事实，获得

http://s.xnimg.cn/a13819/allunivlist.js

http://www.renren.com/GetDep.do?id=13003

的页面代码，人人网是没有设置 session的权限认证的。直接可以读不信你可以点击上面的两个地址，你就发现，原来可以直接读取的。

也就是说。我们可以另辟路径，不用通过HttpClient去登陆一下在取得数据，这一点很不好意思。我刚开始没有意识到。不过，这里你也还是学会了一种登陆一个服务器的办法，说不定以后你会用到呢。

好了，下面我们开始另一种方法。

首先，我们对获取http://s.xnimg.cn/a13819/allunivlist.js的数据进行分析一下：

var allUnivList = [{"id":"00","univs":"","name":"\u4e2d\u56fd","provs":[{............."country_id":0,"name":"\u53f0\u6e7e"}]},{"id":"01","univs"...................

这样的数据类型。我想做过ajax的都知道是json类型的。但是这里我要用Java的正则表达式进行解析。

首先分析数据结构：

[{国家:[{省市区[{高校S}],......}],....},....] 大概就是这样的结构其中....表示可能有多个同级机构。如安徽省呵北京市，而在北京市下有清华大学和北京大学是同级的。以此类推啦。

我只需要中国的的大学，所以我首先选出中国这块的数据：用到的正则表达式是："\"provs\":(.*?)]}"

这里主要对比在台湾省结束的时候，有]}标志，而且在前面并没有出现，而且用非贪婪模式去批判就能保证是中国的高校了。如图

用HttpClient抓取人人网高校数据库（省，高校，院系三级级联）

取得了中国部分，接下来对中国的省市区进行解析了，同样，我们看到：

[{"id":"00",............"country_id":0,"name":"..........."},这样的结构

用HttpClient抓取人人网高校数据库（省，高校，院系三级级联）

所以对每一个省我们可以分析到如下的正则表达式：id\":(.*?),\"univs\":(.*?),\"country_id\":0,\"name\":\"(.*?)\"}

然后对中国这部分进行一个循环，就可以得到中国所有的省市区了，同样我们对每一个省市，要对他们包含的高校进行选择：

我们很容易就可以看到高校的结构应该是：{"id":1001,"name":"\u6e05\u534e\u5927\u5b66"} 类似，那么正则表达式应该是："id\":(.*?),\"name\":\"(.*?)\""；

对于每一个高校，我们可以类似于省市那样处理，用循环匹配，就可以得到这个省市的所以高校。但是对于每一个高校。我们要还需要获得他的院系信息。前文跟大家分分析了，院系信息是通过http://www.renren.com/GetDep.do?id=xxxx来动态获取（xxx代表高校的编号），那么我们在抓取高校的时候，顺带也将他们的院系信息获取了。

写了这么多，咱直接上代码：

你也可以选择下载下面的代码。里面有一些必要的文件已经jar包，需要自己配置一下。如果不会，请留言吧，我争取重新打包再上传上来。

Java代码

importjava.io.File;

importjava.io.IOException;

importjava.io.PrintStream;

importjava.util.regex.Matcher;

importjava.util.regex.Pattern;

importorg.apache.http.client.ClientProtocolException;

importorg.apache.http.client.HttpClient;

importorg.apache.http.client.ResponseHandler;

importorg.apache.http.client.methods.HttpGet;

importorg.apache.http.impl.client.BasicResponseHandler;

importorg.apache.http.impl.client.DefaultHttpClient;

/**

*

*

*Author:Saitkey<[email protected]>

*/

publicclassGenerateSQL{

//构建省的sql文件

privateFileprovince=newFile("provice.sql");

//构建高校的sql文件

privateFilecollege=newFile("college.sql");

//构建院系的sql文件

privateFiledepartment=newFile("department.sql");

GenerateSQL()throwsClientProtocolException,IOException{

HttpClientclient=newDefaultHttpClient();

ResponseHandler<String>responseHandler=newBasicResponseHandler();

StringdepUrl="http://www.renren.com/GetDep.do?id=";

Stringallunivs="http://s.xnimg.cn/a13819/allunivlist.js";

HttpGetget=newHttpGet(allunivs);

System.out.println("读取高校信息...");

StringBuffersb=newStringBuffer(client.execute(get,responseHandler));

System.out.println("读取完成...");

//对获取的字符串进行处理截取从"provs":到}]},{"id":"01"部分

StringalluinvRegex="\"provs\":(.*?)]}";

Patternpattern=Pattern.compile(alluinvRegex);

Stringchn="";

Matchermatcher=pattern.matcher(sb.toString());

matcher.find();

chn=matcher.group(1);

//System.out.println(convertFromHex(tmp));

//对截取的中国部分按照省市区进行匹配"id":1,"univs"......"country_id":0,"name":"台湾"

Stringregex2="id\":(.*?),\"univs\":(.*?),\"country_id\":0,\"name\":\"(.*?)\"}";

Patternpattern2=Pattern.compile(regex2);

Matchermatcher2=pattern2.matcher(chn);

StringBuilderprovsBuilder=newStringBuilder();

StringBuildercolBuilder=newStringBuilder();

StringBuilderdeparBuilder=newStringBuilder();

while(matcher2.find()){

//我们项目的sql语句，如果你们数据库不一样，稍微修改一下拉

provsBuilder.append("insertintoprovince(PROID,PRONAME)values('"

+matcher2.group(1)+"','"

+convertFromHex(matcher2.group(3))+"');\n");

System.out.println("生成-"+convertFromHex(matcher2.group(3))

+"-数据库");

//取得学校的ID，还有名字"id":1001,"name":"\u6e05\u534e\u5927\u5b66"

StringcolRegex="id\":(.*?),\"name\":\"(.*?)\"";

PatterncolPattern=Pattern.compile(colRegex);

MatchercolMatcher=colPattern.matcher(matcher2.group(2));

while(colMatcher.find()){

colBuilder

.append("insertintoCOLLEGE(PROID,COLID,COLNAME)values('"

+matcher2.group(1)

+"','"

+colMatcher.group(1)

+"','"

+convertFromHex(colMatcher.group(2))+"');\n");

System.out.println("生成-"+convertFromHex(colMatcher.group(2))

+"-数据库");

get=newHttpGet(depUrl+colMatcher.group(1));

ResponseHandler<String>depHandler=newBasicResponseHandler();

generateDepartment(client.execute(get,depHandler),colMatcher

.group(1),deparBuilder);

}

}

PrintStreamps=newPrintStream(province);

ps.print(provsBuilder.toString());

ps.close();

PrintStreamps2=newPrintStream(college);

ps2.print(colBuilder.toString());

ps2.close();

PrintStreamps3=newPrintStream(department);

ps3.print(deparBuilder.toString());

ps3.close();

System.err.println("\n\n\n完成数据库生成，请打开项目目录查看！");

}

//这个函数用来处理行查询到的高校院系<option

//value='&#20013;&#22269;&#35821;&#35328;&#25991;&#23398;&#23398;&#38498;'>&#20013;&#22269;&#35821;&#35328;&#25991;&#23398;&#23398;&#38498;</option>

publicvoidgenerateDepartment(Stringsrc,Stringcolid,StringBuildersb){

StringdepartRegex="value='(.+?)'>";//开始用这个正则表达式"value='(.*?)'>";

//后来发现有问题，问题你自己探索吧。

Patternpattern=Pattern.compile(departRegex);

Matchermatcher=pattern.matcher(src);

while(matcher.find()){

sb.append("insertintoDEPARTMENT(COLID,DEPNAME)values('"+colid

+"','"+convertFromDec(matcher.group(1))+"');\n");

}

}

publicstaticStringconvertDec(Stringsrc){

returnCharacter.toString((char)Integer.parseInt(src,10));

}

publicstaticStringconvertHex(Stringsrc){

returnCharacter

.toString((char)Integer.parseInt(src.substring(2),16));

}

//转换&#xxxxx;形式Unicode

privateStringconvertFromDec(Stringcode){

StringBuffersb=newStringBuffer(code);

intstartPos;

intendPos;

while((startPos=sb.indexOf("&#"))>-1){

endPos=sb.indexOf(";");

Stringtmp=sb.substring(startPos+2,endPos);

sb.replace(startPos,endPos+1,Character.toString((char)Integer

.parseInt(tmp,10)));

}

returncode=sb.toString();

}

//转换16进制的Unicode，

privateStringconvertFromHex(Stringcode){

StringBuffersb=newStringBuffer(code);

intpos;

while((pos=sb.indexOf("\\u"))>-1){

Stringtmp=sb.substring(pos,pos+6);

sb.replace(pos,pos+6,Character.toString((char)Integer

.parseInt(tmp.substring(2),16)));

}

returncode=sb.toString();

}

publicstaticvoidmain(String[]args)throwsClientProtocolException,

IOException{

newGenerateSQL();

}

}

写到这里，基本上完成了高校数据库的抓取工作，现在只需要导入刚刚生成的sql文件就可以了。如果你想抓取其他的信息。原理也应该差不多的吧。只不过要看看他们有没有设置session 的权限认证了。如果有，那你得写一个登陆的东西获得那认证，前面也写了差不多。应该可以看懂的。感谢你花这么长的时间。

至于标题的省高校院系级联，好吧，我骗你了。只不过今天就到此了，还有Asp.net的任务。有了数据库了，咱还怕写不出来那个级联么？各位看官，如果你要什么好的级联，可以分享一下吧。

声明：抓取人人网数据仅供学习之用，不对人人网有任何恶意的行为。

重新打包--代码以及分析的文件图片等.rar(1.4 MB)
下载次数: 989

查看图片附件

声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。

用HttpClient抓取人人网高校数据库（省，高校，院系三级级联）

相关推荐