当我用下面的命令来运行nutch 1.10
,假设TestCrawl2
以前并不存在,需要创建,...Nutch的1.10输入路径不存在/ linkdb /电流
sudo -E bin/crawl -i -D solr.server.url=http://localhost:8983/solr/TestCrawlCore2 urls/ TestCrawl2/ 20
我收到一个错误索引:
Indexer: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/opt/apache-nutch-1.10/TestCrawl2/linkdb/current
linkdb目录存在,但不包含'当前'目录。该目录由root拥有,因此应该没有权限问题。由于进程退出了错误,因此linkdb目录包含.locked
和.. locked.crc
文件。如果我再次运行该命令,这些锁定文件会导致它在同一个地方退出。删除TestCrawl2
目录,冲洗,重复。
请注意,nutch和solr installaions本身在以前没有问题的情况下在TestCrawl
实例中运行。现在,我正在尝试一个新的问题。有关解决此问题的任何建议?