2010-08-16 59 views
3

我在寻找一些关于Google如何抓取和索引内容的文档。我阅读了许多关于如何改进排名并确保您的内容已正确编制索引的“轻量级”论文和文章,但我正在寻找一些关于Google如何抓取和索引内容的高级技术文档。Google抓取索引算法

我想知道更多的事情上

  • 谷歌寻找什么元素,当它抓取:网页内容,网址格式,关键字,描述等...
  • 如何更新索引?

基本上,我想了解为什么某些页面被索引但不是其他人,即使格式相似。即使我可以在我的服务器日志中看到Google抓取每个链接,为什么只有10%的网站页面出现在我搜索整个域时。

回答

5

的答案,这两件事都是紧密把守的商业秘密,表面上是为了防止利用系统漏洞。

另外请记住,谷歌制造over 400 algorithmic changes per year,使局外人不可能准确和最新。对Google工作不足,您可能无法找到深入准确的答案。

但是,马特卡茨,网络垃圾邮件团队的负责人,经常提供关于Google如何处理内容的最准确的见解,这些见解都在his blogGoogleWebmasterHelp YouTube channel上。为了更好地理解Google的方法,有必要仔细阅读他的内容。

+1

+1,尽管Page和Brin非常好,可以在Stanford页面上提供论文“搜索引擎的解析”。我想这是您从Google获得的最好结果。 http://infolab.stanford.edu/~backrub/google.html – 2010-08-16 13:06:29

+0

我一直在阅读这个博客,这确实很有趣。 – 2010-08-19 15:21:58

0
+0

这不是在抓取和索引网络。这是关于如何处理大数据和一般计算。 – 2010-08-16 01:44:53

+0

@Laurent Luce:...这就是Google抓取网络的方式! – 2010-08-16 02:33:22

+1

本文不解释内容如何被抓取和编入索引。 – 2010-08-16 05:49:00

1

为了提供webcrawler如何工作的技术方法,我会建议您深入研究nutch.apache.org解决方案。

一个典型的web爬行器显示以下区域,fetcher,解析器,索引器和搜索器。简单地说,网络爬虫可以获取网站上可用的所有网址,并创建网页,每个网页的存储量高达101kb。这些页面被解析,但是典型的单词(如and-or-the)没有被存储,而是使用贝叶斯计算来分析其他单词以获得排名。

搜索引擎索引收集,分析和存储数据,以促进快速和准确的信息检索。这些任务主要通过存储每个搜索标准的出现列表来执行,通常以使用倒排索引的散列表或二叉树的形式。

正如马克所言,谷歌的计算主要是商业秘密,但谷歌发布的专利可能是一个好的开始。 Pagerank http://en.wikipedia.org/wiki/PageRank主要分析反向链接以及指向您网站的网站对人们偏好的重要性。根据我的经验,重要的是提供一个XML网站地图,说明您网站上的所有网页。在该站点地图上,您可以为每个页面定义抓取频率。 gsitecrawler.com/是一个有趣的可能性。

谷歌网站优化工具将让你有机会看到谷歌在你的网站上发现什么,日志是好的,但可能机器人发现问题和最好的方式来知道,与谷歌的网站优化器,以显示错误。

最后,大部分您关注的事项都是SEO的专家所为,我建议您检查seomoz.com和他们的工具等网站......您将学习如何更好地在搜索引擎上定位您的网站。

希望它有帮助!,塞巴斯蒂安。

0

我分析了最新的算法,发现现在

谷歌给出更重视内容而不是链接

因此,如果您的内容足够好并有适当的可用标签,Google会自动为您生成索引。我建议H1 - H6所有使用都很好。

1

“是”Google喜欢新鲜&的独特内容。 使用Google webmaster guideline“试试这个”H1H2元标记在您的HTML编程的头标下....

您的关键字

。锚必须使用您的业务相关的关键字在 H1,H2,它可以帮助您的网站搜索引擎。

也可用于丰富片段在此标签..!

1

它非常精确和敏感地扫描您的网页。像你嵌入JavaScript或不同文件的因素,无论你使用框架设计或使用沉重的图形可以降低您的网页的排名。关键词显然是影响实体的排名。损坏的链接还会降低您的网站排名。 基本上你可以参考http://www.tutorialspoint.com/seo/去看看谷歌爬虫的所有要点。这将需要最多40分钟。