nutch与mysql对接
1、从Nutch官网中下载nutch,要注意的是Nutch分为1版本和2版本,1版本官方提供编译好的代码,2版本官方只提供源码,需要自己编译,与mysql对接要下载nutch-2.2版本(因为nutch-2.3不支持);
如上图所示,点击上面的链接,进去选择2.2版本下载,我这里选择的是nutch-2.2.1;
2、我这里是使用idea IDE进行编译,首先使用idea直接打开代码。因为nutch默认使用的是ant进行编译,使用ivy进行下载jar包。我们先使用idea选择添加build.xml,直接点击eclipse。
3、之后,选择runtime进行构建代码。会得到如下图。至此,可以看到左下方包含的runtime文件夹,里面包含了nutch运行的两种方式,local和deploy。其中deploy方式需要通过大数据的Job方式运行。
4、下面我们要改一点配置文件,在conf的下面找到nutch-site.xml。nutch默认使用nutch-default.xml进行配置nutch。当nutch-site.xml包含了相应配置信息后,nutch会优先选择site里面的配置信息。如下图所示加入以下配置信息。
5、配置完nutch-site.xml后还需配置gora.properties里面的配置信息。
6、配置完后,在idea右侧进行以下步骤clean,然后再runtime。
7、将runtime生成的local下文件的内容拉到linux物理机上,进行部署。
8、在linux下对应文件夹进行nutch crawl (种子路径) -depth 爬取深度 即可进行爬取。