2009-09-19 92 views
1

我是Nutch的新手,但我知道Nutch使用Lucene进行索引,只能理解文本格式。Nutch的插件系统如何工作?

Nutch有很多插件用于抓取特定格式的文档。

我的疑问是:Nutch插件系统实际上怎么样?

我看到了nutch

团队wiki页面,我想喜欢的Nutch的实际工作原理与Lucene的一些信息。

回答

1

所有Lucene的确实是提供了“Documents”的方式来加入到结构化索引和查询针对索引执行。

的爬虫Nutch的(我认为这是你的Nutch的意思)只是提供了一种简单的方式来获得非结构化数据(即网站)将被推入索引。就像您可以使用Solr轻松地将xml数据推送到lucene索引中一样。

Nutch插件只是提供一个钩子,你可以把客户逻辑。例如,“parse-pdf”可以将二进制PDF文件转换为这些“lucene文档”之一。基本上它只是使用可以读取PDF文档(pdfbox)来提取文本的API(这与“parse-html”的作用类似,因为html有很多不是文本的部分,例如所有的html标签)。

所以关于你对二进制格式的关注,它不难解析,只是很难得到有用的东西。例如,我们可以编写一个“解析图像”插件,它可以提取关于图像的很多信息(例如名称,格式,大小),这只是解析图片中的“脸部”或“狗”很困难。