我在寻找一些关于Google如何抓取和索引内容的文档。我阅读了许多关于如何改进排名并确保您的内容已正确编制索引的“轻量级”论文和文章，但我正在寻找一些关于Google如何抓取和索引内容的高级技术文档。Google抓取索引算法

我想知道更多的事情上

谷歌寻找什么元素，当它抓取：网页内容，网址格式，关键字，描述等...
如何更新索引？

基本上，我想了解为什么某些页面被索引但不是其他人，即使格式相似。即使我可以在我的服务器日志中看到Google抓取每个链接，为什么只有10％的网站页面出现在我搜索整个域时。

2010-08-16 Laurent Luce

的答案，这两件事都是紧密把守的商业秘密，表面上是为了防止利用系统漏洞。

另外请记住，谷歌制造over 400 algorithmic changes per year，使局外人不可能准确和最新。对Google工作不足，您可能无法找到深入准确的答案。

但是，马特卡茨，网络垃圾邮件团队的负责人，经常提供关于Google如何处理内容的最准确的见解，这些见解都在his blog和GoogleWebmasterHelp YouTube channel上。为了更好地理解Google的方法，有必要仔细阅读他的内容。

来源

2010-08-16 06:07:00

+1，尽管Page和Brin非常好，可以在Stanford页面上提供论文“搜索引擎的解析”。我想这是您从Google获得的最好结果。 http://infolab.stanford.edu/~backrub/google.html – 2010-08-16 13:06:29

我一直在阅读这个博客，这确实很有趣。 – 2010-08-19 15:21:58

MapReduce: Simplified Data Processing on Large Clusters

来源

2010-08-16 00:34:20

这不是在抓取和索引网络。这是关于如何处理大数据和一般计算。 – 2010-08-16 01:44:53

@Laurent Luce：...这就是Google抓取网络的方式！ – 2010-08-16 02:33:22

本文不解释内容如何被抓取和编入索引。 – 2010-08-16 05:49:00

为了提供webcrawler如何工作的技术方法，我会建议您深入研究nutch.apache.org解决方案。

一个典型的web爬行器显示以下区域，fetcher，解析器，索引器和搜索器。简单地说，网络爬虫可以获取网站上可用的所有网址，并创建网页，每个网页的存储量高达101kb。这些页面被解析，但是典型的单词（如and-or-the）没有被存储，而是使用贝叶斯计算来分析其他单词以获得排名。

搜索引擎索引收集，分析和存储数据，以促进快速和准确的信息检索。这些任务主要通过存储每个搜索标准的出现列表来执行，通常以使用倒排索引的散列表或二叉树的形式。

正如马克所言，谷歌的计算主要是商业秘密，但谷歌发布的专利可能是一个好的开始。 Pagerank http://en.wikipedia.org/wiki/PageRank主要分析反向链接以及指向您网站的网站对人们偏好的重要性。根据我的经验，重要的是提供一个XML网站地图，说明您网站上的所有网页。在该站点地图上，您可以为每个页面定义抓取频率。 gsitecrawler.com/是一个有趣的可能性。

谷歌网站优化工具将让你有机会看到谷歌在你的网站上发现什么，日志是好的，但可能机器人发现问题和最好的方式来知道，与谷歌的网站优化器，以显示错误。

最后，大部分您关注的事项都是SEO的专家所为，我建议您检查seomoz.com和他们的工具等网站......您将学习如何更好地在搜索引擎上定位您的网站。

希望它有帮助！，塞巴斯蒂安。

来源

2010-08-16 06:44:45

我分析了最新的算法，发现现在

谷歌给出更重视内容而不是链接。

因此，如果您的内容足够好并有适当的可用标签，Google会自动为您生成索引。我建议H1 - H6所有使用都很好。

来源

2013-01-07 06:14:52

“是”Google喜欢新鲜&的独特内容。使用Google webmaster guideline“试试这个”H1或H2元标记在您的HTML编程的头标下....

您的关键字

。锚必须使用您的业务相关的关键字在 H1，H2，它可以帮助您的网站搜索引擎。

也可用于丰富片段在此标签..！

来源

2013-07-17 08:04:58 user2590382

它非常精确和敏感地扫描您的网页。像你嵌入JavaScript或不同文件的因素，无论你使用框架设计或使用沉重的图形可以降低您的网页的排名。关键词显然是影响实体的排名。损坏的链接还会降低您的网站排名。基本上你可以参考http://www.tutorialspoint.com/seo/去看看谷歌爬虫的所有要点。这将需要最多40分钟。

来源

2015-07-25 20:15:49

Google抓取索引算法

回答

您的关键字

相关问题