2017-10-17 316 views
0

我在使用Nutch抓取时遇到了一些问题。我跟着教程从here但错误:在窗口上使用Nutch

" /home/apache-nutch-2.3.1/runtime/local/bin/nutch inject urls/seed.txt -crawlId TestCrawl 
Failed with exit value 1. 
" 

任何人都可以提供指导给我参考如何在窗口中正确使用Nutch的?

回答

0

由于版本冲突和弱在线引用,我多次尝试设置Apache Nutch与Hbase或MongoDB独立失败。我宁愿建议使用任何DockerFile来帮助指导您完成设置。您可以使用Docker加载图像,或者如果您希望Nutch在本地安装,只需按照任何正在运行的DockerFile中的所有命令进行操作即可。这是一个可用于开始使用的DockerFile的example

成功安装后,你可以抓取使用:

[NUTCH_DIRECTORY]/bin/crawl -i -s seed.txt crawldata <NUM_ROUNDS> 

这将完成整个抓取过程(注,获取,解析和生成)。

然后,您可以通过运行这个命令来查看解析的内容:

./nutch readlinkdb data/linkdb/ -dump out 
cat out/part-00000 

希望这有助于!