为了提供webcrawler如何工作的技术方法,我会建议您深入研究nutch.apache.org解决方案。
一个典型的web爬行器显示以下区域,fetcher,解析器,索引器和搜索器。简单地说,网络爬虫可以获取网站上可用的所有网址,并创建网页,每个网页的存储量高达101kb。这些页面被解析,但是典型的单词(如and-or-the)没有被存储,而是使用贝叶斯计算来分析其他单词以获得排名。
搜索引擎索引收集,分析和存储数据,以促进快速和准确的信息检索。这些任务主要通过存储每个搜索标准的出现列表来执行,通常以使用倒排索引的散列表或二叉树的形式。
正如马克所言,谷歌的计算主要是商业秘密,但谷歌发布的专利可能是一个好的开始。 Pagerank http://en.wikipedia.org/wiki/PageRank主要分析反向链接以及指向您网站的网站对人们偏好的重要性。根据我的经验,重要的是提供一个XML网站地图,说明您网站上的所有网页。在该站点地图上,您可以为每个页面定义抓取频率。 gsitecrawler.com/是一个有趣的可能性。
谷歌网站优化工具将让你有机会看到谷歌在你的网站上发现什么,日志是好的,但可能机器人发现问题和最好的方式来知道,与谷歌的网站优化器,以显示错误。
最后,大部分您关注的事项都是SEO的专家所为,我建议您检查seomoz.com和他们的工具等网站......您将学习如何更好地在搜索引擎上定位您的网站。
希望它有帮助!,塞巴斯蒂安。
+1,尽管Page和Brin非常好,可以在Stanford页面上提供论文“搜索引擎的解析”。我想这是您从Google获得的最好结果。 http://infolab.stanford.edu/~backrub/google.html – 2010-08-16 13:06:29
我一直在阅读这个博客,这确实很有趣。 – 2010-08-19 15:21:58