如何给深度的nutch 2.3爬行

在V2.2.1有一个nutch crawl命令，可以在其中产生深度抓取如何给深度的nutch 2.3爬行

仓/爬行Nutch的[-solr] [-dir d] [-threads n] [-depth i] [-topN N]

如何为nutch v2.3做同样的事情？

2015-08-08 user568109

该脚本的文档没有更新，我认为那里的脚本与Nutch 1.4相关。

您可以随时在github处检查Nutch的正式存储库，当然，请确保您正在查看正确的分支。

无论如何，Nutch的2.X爬行脚本如下（你可以看到2.3源here）：

crawl <seedDir> <crawlId> <solrURL> <numberOfRounds>

凡seedDir是你的种子URL文件的目录，crawlId是你想给你的爬行工作打电话的名字，solrURL是自解释和numberOfRounds是你在找什么。

但请注意，脚本还具有可以更改（脚本内）的参数，例如每个级别获取的页数（即抓取的宽度）。

2015-08-16 08:46:15 aperfectpoint

它位于conf文件夹的nutch-default.xml中

2016-01-05 02:42:48 hussein13

回答