2014-12-04 86 views
-1

他的人我想用Nutch的1.9与java7抓取https网站抓取问题HTTPS使用Nutch

seed.txt

https://site.com 
在正则表达式,urlfilter.txt

+^https://([a-z0-9]*\.)*site.com/ 

但当使用bin/crawl ...运行crawlig进程时,我得到了一个javax.net.ssl.SSLProtocolException:握手警报:无法识别的名称

回答

2

我得到了具有默认证书的网站的解决方案,我希望这可以帮助其他人会遇到这个问题。

一些在这个论坛上的帖子提到了有关添加参数-Djsse.enableSNIExtension=false 但在哪里放? 我编辑使用纳米的nucth文件,并在NUTCH_OPTS 在Nutch的1.9它是行195现在是

NUTCH_OPTS=($NUTCH_OPTS -Dhadoop.log.dir="$NUTCH_LOG_DIR" -Djsse.enableSNIExtension=false) 

后爬行成功了没有打破

加入这个说法