我在为最后一年的项目建立一个搜索引擎。在过去的2个月里,我对这个话题做了大量的研究。 我发现我需要爬虫来抓取Internet,解析器和索引器。如何在ubuntu 10.10中配置Nutch和solr?
我想使用Nutch作为抓取工具和solr来索引由Nutch抓取的数据。但我被困在他们两个的安装部分。我试图在网上的教程的帮助下,在我的系统中安装Nutch和solr,但没有为我工作。
我需要某种安装指南或链接,我可以学习如何安装和集成Nutch和solr。
接下来我陷入了解析器。我不知道这个阶段。在这里我需要关于如何在索引之前解析数据的帮助。
我不想构建Google或其他东西。我需要的只是某些网站的某些项目进行搜索。
我有Java的经验,我可以舒适地工作,但我不是像你们这样的专业人员,请告诉我我是否正确的方向走,以及接下来应该做什么。
我使用Ubuntu 10.10,和我的Apache Tomcat 7