2015-11-03 67 views
6

当我用下面的命令来运行nutch 1.10,假设TestCrawl2以前并不存在,需要创建,...Nutch的1.10输入路径不存在/ linkdb /电流

sudo -E bin/crawl -i -D solr.server.url=http://localhost:8983/solr/TestCrawlCore2 urls/ TestCrawl2/ 20 

我收到一个错误索引:

Indexer: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/opt/apache-nutch-1.10/TestCrawl2/linkdb/current 

linkdb目录存在,但不包含'当前'目录。该目录由root拥有,因此应该没有权限问题。由于进程退出了错误,因此linkdb目录包含.locked和.. locked.crc文件。如果我再次运行该命令,这些锁定文件会导致它在同一个地方退出。删除TestCrawl2目录,冲洗,重复。

请注意,nutch和solr installaions本身在以前没有问题的情况下在TestCrawl实例中运行。现在,我正在尝试一个新的问题。有关解决此问题的任何建议?

回答

3

好吧,它好像我遇到了一个版本,这个问题的:

https://issues.apache.org/jira/browse/NUTCH-2041

这是没有意识到变化的爬行脚本ignore_external_links我的Nutch-site.xml中的结果文件。

我试图抓取几个网站,并希望保持我的生活忽略外部链接,留下的正则表达式,urlfilter.txt单独简单(只用+。)

现在看起来我不得不将ignore_external_links更改为false,并为我的每个url添加正则表达式过滤器。希望我能很快得到nutch 1.11的发布。看起来这是固定的。

相关问题