索引网址使用nutch注入网址内容

我已经递归爬取一个网站，并收集所有的链接/子链接，即它提到的网址。现在我想它将所有html内容转储到elasticsearch。索引网址使用nutch注入网址内容

我正在经历的Nutch tutorial，发现下面的方式来做到这一点：

2. Inject the URLs into the Crawldb 

     nutch inject seed/urls.txt 


3. Generate URLs to fetch 

    bin/nutch generate -topN 40 

4. Fetch the pages 

    bin/nutch fetch -all

在做的，我得到以下错误：

$ ./nutch inject seed/urls.txt 
    Usage: Injector <crawldb> <url_dir> [-overwrite] [-update]

在这里，在urls.txt我有把所有的网页链接分开新行。我不知道如何提取所有数据并推送到ES使用nutch和无法找到任何参考链接要做，需要指针。

来源

2017-03-09 Anand

检查你需要指定'crawldb'路径通常是'爬行/ crawldb'但实际上取决于名义注入命令的输出你选择了。 –

该命令注入需要两个参数。第一个是crawldb，这是Nutch在抓取过程中存储其数据的位置。你通常使用的是crawl/crawldb，但你可以选择一个不同的名字，以及@Jorge Luis在他的评论中指出的名字。第二个是url_dir，这是目录的位置其中包含起始URL的文本文件位于该位置。在你的情况下，这将是seed。

所以完整的命令，您可以运行是

./nutch inject crawl/crawldb seed

来源

2017-03-14 06:32:04 SilverNak

索引网址使用nutch注入网址内容

回答

相关问题