6
我正在开发一个项目,我需要一个成熟的爬虫来做一些工作,我正在评估Nutch的这个目的。 我目前的需求相对简单:我需要一个能够将数据保存到磁盘的爬网程序,并且我需要它能够重新抓取网站的更新资源并跳过已经爬网的部分。 有没有人有任何直接在Java中使用Nutch代码的经验,而不是通过命令行。我想从简单开始:创建一个爬虫(或类似的),最低限度地配置它并启动它,没有什么奇特的。 是否有这样的例子,或者我应该看的一些资源?我正在翻阅Nutch文档,但其中大部分内容都是关于命令行,搜索和其他内容的。 Nutch抓取模块的可用性如何,无需索引和搜索? 任何帮助表示赞赏。 谢谢。Nutch API的建议