著名java开源搜索引擎bddbot的简单使用——测试报告

一、 编译

1. 安装JDKjava开发工具包),这步环境变量设置比较麻烦(例如我用的是jdk6.0_13),在系统属性->高级->环境变量中,设置如下三个变量(如果没有的话,则新建一个该名称的变量)

1) JAVA_HOME,添加值:D:/Program Files/Java/jdk1.6.0_13;//如果只有一个变量值,不需要加“;”号。

2) ClassPath,添加值:.;%JAVA_HOME%/lib/tools.jar;

3) Path,添加值:%JAVA_HOME%/bin;

2. 将文档bddbot.zip解压到bddbot目录下(以bddhot为根目录,如放在E盘下,则为E:/bddbot),bddbot目录下有bddsearchdb两个子目录。

3. 修改bdd/search/EnginePrefs.javaString email_address = "[email protected]"; // 改成自己的电邮

4. 打开开始->运行->输入cmd->回车,在命令行中,先转到目录bddhot下,再执行命令javac bdd/search/EnginePrefs.java(其余的所有类文件也都已经编译,如果没有编译的话到相应文件夹下执行命令javac *.java即可)

5. searchdb文件夹下两文件rules.txturls.txt的用法,顾名思义:
rules是对urls的约束条件,有两种用法:includeexclude,如include http://grs.pku.edu.cn/zs/,就是下载http://grs.pku.edu.cn/zs/开头的所有网页。urls是初始爬取的页面地址列表,每行一个地址,系统在这个地方不完善,对.html.htm结尾的网页(即使用全名的网页)效果较好。#表示注释,即没有作用。

二、 爬取

1. 配置rules.txt值为include http://grs.pku.edu.cn/zs/

2. 配置urls值为http://grs.pku.edu.cn/zs/zs_news.html

3. 命令行中执行java bdd.search.Monitor(注意,命令行当前目录应为bddbot)打开图形界面

著名java开源搜索引擎bddbot的简单使用——测试报告

1 主界面

其中

1) Queries栏目是检索所用关键字的记录;Current Url是当前正在处理的网页;

2) Total Bytes表示已经下载的内容的流量;

3) Processed是已经处理过的网页地址列表;

4) Errors是出错的网页地址列表,在命令窗体中有详细的错误记录。

4. 点击start crawler,该按钮变成不可用状态,开始爬取。爬取完成后,该按钮恢复到可用状态。

著名java开源搜索引擎bddbot的简单使用——测试报告

2 正在爬取

著名java开源搜索引擎bddbot的简单使用——测试报告

3 爬取完成

其中Queries里面记录的是汉字内容,显示成了乱码,对汉语支持不完善。命令窗体的错误记录为:

java.net.MalformedURLException: unknown protocol: javascript

at java.net.URL.<init>(URL.java:574)

at java.net.URL.<init>(URL.java:464)

at bdd.search.spider.HTMLLinkExtractor.analyzeAnchor(HTMLLinkExtractor.j

ava:76)

at bdd.search.spider.HTMLLinkExtractor.analyze(HTMLLinkExtractor.java:63

)

at bdd.search.spider.HTMLLinkExtractor.<init>(HTMLLinkExtractor.java:43)

at bdd.search.spider.URLStatus.getLinkExtractor(URLStatus.java:152)

at bdd.search.spider.Indexer.run(Indexer.java:93)

5. 本次下载后主索引文件(在E:/bddbot/searchdb/main.db)大小为1.34M,用时共约20分钟。

三、 搜索测试

1. 检索:
<form action="
http://222.29.124.166:8001/query" method=GET>
<input type="text" name="words" value="" size=45>
<input type="submit" value="Search">
</form>
把上面见容另存为html文档,其中222.29.124.166改成本机地址即可使用,一般windows下测试可以直接使用localhost(当然,可以在此基础上在界面上面多添加一些元素),如图:

著名java开源搜索引擎bddbot的简单使用——测试报告

4 搜索界面

2. 然后用浏览器打开它,在开启Monitor的情况***意,要求已经成功爬取完成一部分语料),输入关键字进行搜索。

著名java开源搜索引擎bddbot的简单使用——测试报告

5 一个搜索结果

附:bddbot源码及其文档bddbot测试报告(使用方法) Word版。