2012-02-08 92 views
-1

任何人都可以解释我简单的搜索引擎吗?解释简单的搜索引擎

它应该是什么样子,它应该有什么组件以及它如何工作?

有一个网络爬虫,有索引和查询是我知道的。哪一部分最难做?

哪里可以使用pagerank算法 - 抓取?或者查询即显示结果? 什么是索引?

我读过东西,但有点复杂。

我想要做的是创建简单的java搜索引擎。使用什么算法并不重要,迄今为止我有广度优先,我认为它是最简单的算法。 我有一个简单的网络爬虫,我输入种子URL和搜索页面的限制。 首先,爬虫检查链接,robots.txt,如果它可以下载第一页,从页面提取网址,并将它们添加到列表。当抓取工具完成从第一页提取URL时,它会首先获取列表中的URL并提取链接等。

怎么样索引?

我真的不理解这部分。如果我想要整页索引,我应该怎么做?只需将下载页面的全文添加到数据库?

索引是我最重要的部分,请解释这部分。

Thanx提前!

+0

当你搜索“全文索引”时,你发现了什么?通常有很多这方面的文章。你读过哪些书?什么让你感到困惑? – 2012-02-08 13:55:07

+0

另外,你的硬盘有多大? – 2012-02-08 13:56:36

+0

李斯特尔先生 - 我想我不需要大型硬盘,因为我需要在一个(不是很大)的域内抓取页面。 – woopata 2012-02-08 14:04:44

回答

0

本书Algorithms of the Intelligent Web对PageRank算法有很好的介绍,并且很好地介绍了自己实现它的方法。我建议你得到这个副本,并通过第2章来深入了解这个空间。