Nutch的插件系统如何工作？

我是Nutch的新手，但我知道Nutch使用Lucene进行索引，只能理解文本格式。Nutch的插件系统如何工作？

Nutch有很多插件用于抓取特定格式的文档。

我的疑问是：Nutch插件系统实际上怎么样？

我看到了nutch

团队wiki页面，我想喜欢的Nutch的实际工作原理与Lucene的一些信息。

来源

2009-09-19 vipin k.

所有Lucene的确实是提供了“Documents”的方式来加入到结构化索引和查询针对索引执行。

的爬虫Nutch的（我认为这是你的Nutch的意思）只是提供了一种简单的方式来获得非结构化数据（即网站）将被推入索引。就像您可以使用Solr轻松地将xml数据推送到lucene索引中一样。

Nutch插件只是提供一个钩子，你可以把客户逻辑。例如，“parse-pdf”可以将二进制PDF文件转换为这些“lucene文档”之一。基本上它只是使用可以读取PDF文档（pdfbox）来提取文本的API（这与“parse-html”的作用类似，因为html有很多不是文本的部分，例如所有的html标签）。

所以关于你对二进制格式的关注，它不难解析，只是很难得到有用的东西。例如，我们可以编写一个“解析图像”插件，它可以提取关于图像的很多信息（例如名称，格式，大小），这只是解析图片中的“脸部”或“狗”很困难。

来源

2010-11-11 01:03:29 mlathe

Nutch的插件系统如何工作？

回答

相关问题