HTTPS使用Nutch
问题描述:
他的人我想用Nutch的1.9与java7抓取https网站抓取问题HTTPS使用Nutch
在seed.txt
https://site.com
在正则表达式,urlfilter.txt
+^https://([a-z0-9]*\.)*site.com/
但当使用bin/crawl ...
运行crawlig进程时,我得到了一个javax.net.ssl.SSLProtocolException:握手警报:无法识别的名称
答
我得到了具有默认证书的网站的解决方案,我希望这可以帮助其他人会遇到这个问题。
一些在这个论坛上的帖子提到了有关添加参数-Djsse.enableSNIExtension=false
但在哪里放? 我编辑使用纳米的nucth文件,并在NUTCH_OPTS 在Nutch的1.9它是行195现在是
NUTCH_OPTS=($NUTCH_OPTS -Dhadoop.log.dir="$NUTCH_LOG_DIR" -Djsse.enableSNIExtension=false)
后爬行成功了没有打破
加入这个说法