如何或在哪里运行$ ./nutch注入抓取/ crawldb网址

我是Nutch的新手，我想抓取网站。我正在使用Nutch 1.12，并且我盲目地遵循了提及的步骤here

我下载了apache-nutch-1.12-bin.zip，然后将其解压缩。使用cygwin我试图抓取我的第一个网站。我只是按照上面的步骤进行操作。

我创建了一个名为urls的目录，里面创建了seed.txt，其中包含http://nutch.apache.org/。

现在我想执行命令bin/nutch注入crawl/crawldb url但我得到下面的异常。

佐拉@ BNDA000000615 /cygdrive/c/Airbus/apache-nutch-1.12/bin $ ./nutch注射爬行/ crawldb网址喷油器：开始于2017年3月8日14时31分17秒注射器：crawlDb ：crawl/crawldb Injector：urlDir：url Injector：将注入的url转换为抓取数据库条目。注入器：org.apache.hadoop.fs.FileAlreadyExistsException：父路径不是目录：在org.apache.hadoop.fs上的org.apache.hadoop.fs.RawLocalFileSystem.mkdirs（RawLocalFileSystem.java:409）上爬行 .RawLocalFileSystem.mkdirs（RawLocalFileSystem.java:413）在org.apache.hadoop.fs.ChecksumFileSystem.mkdirs（ChecksumFileSystem.java:584）在org.apache.nutch.crawl.Injector.inject（Injector.java:350 ） at org.apache.nutch.crawl.Injector.run（Injector.java:467） at org.apache.hadoop.util.ToolRunner.run（ToolRunner.java:70） at org.apache.nutch.crawl .Injector.main（Injector.java:441）

您能否请某人帮忙解决此问题

来源

2017-03-08 CHOLA

而不是cygwin，在Linux上试试吧？您可以使用Oracle VirtualBox在Windows上运行Ubuntu。 –

我有同样的问题。

您是否使用“-p”参数创建了url目录？

当我这样做时，问题就解决了。

祝你好运。

来源

2017-03-10 03:38:46

如何或在哪里运行$ ./nutch注入抓取/ crawldb网址

回答

相关问题