2017-03-09 70 views
0

我已经递归爬取一个网站,并收集所有的链接/子链接,即它提到的网址。现在我想它将所有html内容转储到elasticsearch。索引网址使用nutch注入网址内容

我正在经历的Nutch tutorial,发现下面的方式来做到这一点:

2. Inject the URLs into the Crawldb 

     nutch inject seed/urls.txt 


3. Generate URLs to fetch 

    bin/nutch generate -topN 40 

4. Fetch the pages 

    bin/nutch fetch -all 

在做的,我得到以下错误:

$ ./nutch inject seed/urls.txt 
    Usage: Injector <crawldb> <url_dir> [-overwrite] [-update] 

在这里,在urls.txt我有把所有的网页链接分开新行。 我不知道如何提取所有数据并推送到ES使用nutch和无​​法找到任何参考链接要做,需要指针。

+0

检查你需要指定'crawldb'路径通常是'爬行/ crawldb'但实际上取决于名义注入命令的输出你选择了。 –

回答

0

该命令注入需要两个参数。第一个是crawldb,这是Nutch在抓取过程中存储其数据的位置。你通常使用的是crawl/crawldb,但你可以选择一个不同的名字,以及@Jorge Luis在他的评论中指出的名字。第二个是url_dir,这是目录的位置其中包含起始URL的文本文件位于该位置。在你的情况下,这将是seed

所以完整的命令,您可以运行是

./nutch inject crawl/crawldb seed