我是Nutch的新手,我想抓取网站。我正在使用Nutch 1.12,并且我盲目地遵循了提及的步骤here
我下载了apache-nutch-1.12-bin.zip,然后将其解压缩。使用cygwin我试图抓取我的第一个网站。我只是按照上面的步骤进行操作。
我创建了一个名为urls的目录,里面创建了seed.txt,其中包含http://nutch.apache.org/。
现在我想执行命令bin/nutch注入crawl/crawldb url但我得到下面的异常。
佐拉@ BNDA000000615 /cygdrive/c/Airbus/apache-nutch-1.12/bin $ ./nutch注射爬行/ crawldb网址 喷油器:开始于2017年3月8日14时31分17秒 注射器:crawlDb :crawl/crawldb Injector:urlDir:url Injector:将注入的url转换为抓取数据库条目。 注入器:org.apache.hadoop.fs.FileAlreadyExistsException:父路径不是目录:在org.apache.hadoop.fs上的org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:409) 上爬行 .RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:413) 在org.apache.hadoop.fs.ChecksumFileSystem.mkdirs(ChecksumFileSystem.java:584) 在org.apache.nutch.crawl.Injector.inject(Injector.java:350 ) at org.apache.nutch.crawl.Injector.run(Injector.java:467) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) at org.apache.nutch.crawl .Injector.main(Injector.java:441)
您能否请某人帮忙解决此问题
而不是cygwin,在Linux上试试吧?您可以使用Oracle VirtualBox在Windows上运行Ubuntu。 –