Nutch的1.10输入路径不存在/ linkdb /电流

当我用下面的命令来运行nutch 1.10，假设TestCrawl2以前并不存在，需要创建，...Nutch的1.10输入路径不存在/ linkdb /电流

sudo -E bin/crawl -i -D solr.server.url=http://localhost:8983/solr/TestCrawlCore2 urls/ TestCrawl2/ 20

我收到一个错误索引：

Indexer: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/opt/apache-nutch-1.10/TestCrawl2/linkdb/current

linkdb目录存在，但不包含'当前'目录。该目录由root拥有，因此应该没有权限问题。由于进程退出了错误，因此linkdb目录包含.locked和.. locked.crc文件。如果我再次运行该命令，这些锁定文件会导致它在同一个地方退出。删除TestCrawl2目录，冲洗，重复。

请注意，nutch和solr installaions本身在以前没有问题的情况下在TestCrawl实例中运行。现在，我正在尝试一个新的问题。有关解决此问题的任何建议？

好吧，它好像我遇到了一个版本，这个问题的：

这是没有意识到变化的爬行脚本ignore_external_links我的Nutch-site.xml中的结果文件。

我试图抓取几个网站，并希望保持我的生活忽略外部链接，留下的正则表达式，urlfilter.txt单独简单（只用+。）

现在看起来我不得不将ignore_external_links更改为false，并为我的每个url添加正则表达式过滤器。希望我能很快得到nutch 1.11的发布。看起来这是固定的。

2015-11-09 21:10:43

回答