2015-08-08 70 views

回答

1

该脚本的文档没有更新,我认为那里的脚本与Nutch 1.4相关。

您可以随时在github处检查Nutch的正式存储库,当然,请确保您正在查看正确的分支。

无论如何,Nutch的2.X爬行脚本如下(你可以看到2.3源here):

crawl <seedDir> <crawlId> <solrURL> <numberOfRounds> 

seedDir是你的种子URL文件的目录,crawlId是你想给你的爬行工作打电话的名字,solrURL是自解释和numberOfRounds是你在找什么。

但请注意,脚本还具有可以更改(脚本内)的参数,例如每个级别获取的页数(即抓取的宽度)。

0

它位于conf文件夹的nutch-default.xml中