在窗口上使用Nutch

我在使用Nutch抓取时遇到了一些问题。我跟着教程从here但错误：在窗口上使用Nutch

" /home/apache-nutch-2.3.1/runtime/local/bin/nutch inject urls/seed.txt -crawlId TestCrawl 
Failed with exit value 1. 
"

任何人都可以提供指导给我参考如何在窗口中正确使用Nutch的？

来源

2017-10-17 Terence Goh

由于版本冲突和弱在线引用，我多次尝试设置Apache Nutch与Hbase或MongoDB独立失败。我宁愿建议使用任何DockerFile来帮助指导您完成设置。您可以使用Docker加载图像，或者如果您希望Nutch在本地安装，只需按照任何正在运行的DockerFile中的所有命令进行操作即可。这是一个可用于开始使用的DockerFile的example。

成功安装后，你可以抓取使用：

[NUTCH_DIRECTORY]/bin/crawl -i -s seed.txt crawldata <NUM_ROUNDS>

这将完成整个抓取过程（注，获取，解析和生成）。

然后，您可以通过运行这个命令来查看解析的内容：

./nutch readlinkdb data/linkdb/ -dump out 
cat out/part-00000

希望这有助于！

来源

2017-11-07 11:52:04

在窗口上使用Nutch

回答

相关问题