0
我已经递归爬取一个网站,并收集所有的链接/子链接,即它提到的网址。现在我想它将所有html内容转储到elasticsearch。索引网址使用nutch注入网址内容
我正在经历的Nutch tutorial,发现下面的方式来做到这一点:
2. Inject the URLs into the Crawldb
nutch inject seed/urls.txt
3. Generate URLs to fetch
bin/nutch generate -topN 40
4. Fetch the pages
bin/nutch fetch -all
在做的,我得到以下错误:
$ ./nutch inject seed/urls.txt
Usage: Injector <crawldb> <url_dir> [-overwrite] [-update]
在这里,在urls.txt我有把所有的网页链接分开新行。 我不知道如何提取所有数据并推送到ES使用nutch和无法找到任何参考链接要做,需要指针。
检查你需要指定'crawldb'路径通常是'爬行/ crawldb'但实际上取决于名义注入命令的输出你选择了。 –