nutch与mysql对接

1、从Nutch官网中下载nutch,要注意的是Nutch分为1版本和2版本,1版本官方提供编译好的代码,2版本官方只提供源码,需要自己编译,与mysql对接要下载nutch-2.2版本(因为nutch-2.3不支持);

nutch与mysql对接

如上图所示,点击上面的链接,进去选择2.2版本下载,我这里选择的是nutch-2.2.1;

2、我这里是使用idea IDE进行编译,首先使用idea直接打开代码。因为nutch默认使用的是ant进行编译,使用ivy进行下载jar包。我们先使用idea选择添加build.xml,直接点击eclipse。

3、之后,选择runtime进行构建代码。会得到如下图。至此,可以看到左下方包含的runtime文件夹,里面包含了nutch运行的两种方式,local和deploy。其中deploy方式需要通过大数据的Job方式运行。

nutch与mysql对接

4、下面我们要改一点配置文件,在conf的下面找到nutch-site.xml。nutch默认使用nutch-default.xml进行配置nutch。当nutch-site.xml包含了相应配置信息后,nutch会优先选择site里面的配置信息。如下图所示加入以下配置信息。

5、配置完nutch-site.xml后还需配置gora.properties里面的配置信息。

nutch与mysql对接

6、配置完后,在idea右侧进行以下步骤clean,然后再runtime。

7、将runtime生成的local下文件的内容拉到linux物理机上,进行部署。

8、在linux下对应文件夹进行nutch crawl (种子路径) -depth 爬取深度 即可进行爬取。