2012-04-20 44 views
0

我在为最后一年的项目建立一个搜索引擎。在过去的2个月里,我对这个话题做了大量的研究。 我发现我需要爬虫来抓取Internet,解析器和索引器。如何在ubuntu 10.10中配置Nutch和solr?

我想使用Nutch作为抓取工具和solr来索引由Nutch抓取的数据。但我被困在他们两个的安装部分。我试图在网上的教程的帮助下,在我的系统中安装Nutch和solr,但没有为我工作。

我需要某种安装指南或链接,我可以学习如何安装和集成Nutch和solr

接下来我陷入了解析器。我不知道这个阶段。在这里我需要关于如何在索引之前解析数据的帮助。

我不想构建Google或其他东西。我需要的只是某些网站的某些项目进行搜索。

我有Java的经验,我可以舒适地工作,但我不是像你们这样的专业人员,请告诉我我是否正确的方向走,以及接下来应该做什么。

我使用Ubuntu 10.10,和我的Apache Tomcat 7

回答

-1

This是Nutch的安装和this是与Solr的集成。

关于解析器,nutch有它自己的一套解析器,你不必为解析而烦恼。触发爬行命令,它自动完成。除非你想解析那些由nutch提供的东西,否则它不会成为你的问题。如果你想让nutch解析一些.xyz文件,那么你需要编写解析器插件并与nutch集成。