2011-11-03 71 views
8

这几天我遇到了几个Google搜索结果,其中包含与我的搜索词完全匹配的链接的网站。这些网站如何动态地改变他们的内容,或者他们如何愚弄谷歌为我的关键词索引他们的页面。我已阅读关于内容农场,但这似乎并不是一个正确的答案。有人能让我知道这种技术被称为什么吗?我会试着更多地了解它。如何在搜索引擎的结果中显示有假链接的网站

回答

8

我的理解是,让Google或任何其他索引引擎的唯一方法是让机器人实际抓取您的网站并生成结果。很显然,谷歌可以抓取动态网站:

但是我觉得这是关于你的问题的进化而不是革命性的变化。

我认为是幕后发生的事情是这些东西的组合:

  • 内容索引
  • 准备指数
  • 用户提交的内容
  • 引荐搜索更新

我会尽力在一个销售音乐的虚构网站上解释这些问题 - 你们有很多例子可供比较重新体验。它当然会在example.com域上。

内容索引

显然,作为要提供一些站点,你实际上有一些内容。通常,你以某种方式将这些内容分组。假设我们的音乐网站通过不同的类别可以组内容:

  • 作者
  • 音乐流派
  • 用户提交
  • 内容分级

每这些都可以抽象地表示为标签。例如,我们的网站可以选择使用example.com/tags/eagles来表示Eagles或example.com/tags/rock来表示所有摇滚乐队。谷歌将能够对这些进行索引,所以任何潜在的搜索都可能产生到我们网站的链接。

准备指数

准备指数类似,但是是一个通用的指标,而不是真正的内容。这可以通过几种方法制备,如:

  • 拿字典和(可能使用搜索引擎提供的链接添加来自Web的所有单词
  • 抓取几百万页!),并从那里经常重复的短语
  • 免费论坛
  • 抓取内容
  • 使用Wikipeda
  • 获得从免费提供书籍,如那些来自Project Gutenberg

文本我们的网站会,例如,获得以任何方式与音乐相关的文字中的任何单词,并使标签与之前的相似。例如。只需抓取维基百科上的Rock music页面,就可以获得大量标签。

用户提交的内容

这是什么,通常是后您的网站是启动和运行。假设我们在我们的网站上放置了一个搜索框,然后用户进入并输入“摇滚音乐”。呃,我们已经知道了,那么搜索没什么好处。但是,假设我们遍历我们的Web服务器日志并查看一些搜索langeleik。现在,这将是我们以前可能没有编入索引的东西。酷,只是在我们的网站上生成另一个标签。

显然,Google不知道 - 因此我们在sitemap中创建了一个条目,它在另一个Googlebot抓取之后在那里。当用户在Google上搜索“langeleik”时,其中一个链接可能是指向example.com/tags/langeleik的链接。

还有其他可能更有价值的用户输入形式 - 评论,论坛帖子等。因此,有许多通用论坛除了主办论坛之外没有其他目的。这是一个很好的数据源,你可以免费获得新的内容。

最后,这一切都应该去你的网站sitemap。你可以有巨大的Sitemaps,看到这一点:

介绍人

的最后一件事是推荐。在您的网站启动并运行后,您的一些Google搜索将直接发送给您。这时候,你可以把HTTP引用头的优势(是的,这是一个拼写错误 - 检查出来的Wikipedia),看到这一点:

注意,谷歌搜索是两个:

  • 不完整
  • 模糊

因此,您可以搜索上面的“langeleik”,但其中一些链接的标题为例如。 “Langeleik and Harpe”。没有什么不寻常的,但也要注意相反 - 如果您搜索“langeleik and harpe”,它不仅会找到所有条款都包含条款的页面,而且还会找到包含其中一个或另一个的页面。如果我们知道harpe,而不是langeleik,并且有人搜索“langeleik and harpe”,我们将通过HTTP Referer头部获得q参数,如q=langeleik+harpe。酷 - 如果我们想要的话,只需添加一个词来添加到我们的站点地图。

至于模糊,注意,当你搜索“鹰”,您可以通过NFL球队得到一切从鸟类到一个摇滚乐队。因此,尽管我们是一个音乐网站,但我们可能会扩大我们的视野(如果需要),以最新的NFL新闻 - 这对某些网站来说是完全不相关的,非常有用的。

结论 - 这是一种错觉

我认为所有这些组合非常丰富的网站地图的建筑源。使用上述技术,您可以非常轻松地生成数百万个独特标签。因此,您可以在example.com/tags找到您输入的“任何内容”。

但是,您必须注意,这只是一个错觉。例如,如果您搜索“ertfghedctgb”(很容易在常规QWERTY键盘上输入 - ert + fgh + edc + tgb),您很可能不会从Google获取任何内容(目前我不)。对于任何人将其放在他们的站点地图中(或不常用于搜索引擎的索引),这并不普遍。

+4

加入ertfghedctgb这个答案这个词会成为几个小时 – SinistraD

+1

@SinistraD :)善于观察内的谷歌的结果! –

+1

现在是搜索结果:) – nathanjosiah

1

所有浏览器和爬虫在每次请求发送一种叫做HTTP_USER_AGENT字符串到Web服务器,除非它不被故意添加的软件。该字符串标识使用的浏览器,它是什么版本,渲染引擎和一些更多细节。 (见http://en.wikipedia.org/wiki/User_agent

web服务器可以读取HTTP_USER_AGENT和改变服务内容。例如,它可用作手持设备或大屏幕上的检测的一部分,在这种情况下,您可能需要不同的给定网页布局。

人们投入大量资金来吸引他们的网站流量,特别是通过Google和Bing等大型搜索引擎。术语搜索引擎优化是搜索引擎优化的一种术语,它是网页所有者优化其内容以便搜索引擎提供相关点击的技术。如果您有一个使用大量JavaScript和Ajax的复杂网站,您可能需要为搜索引擎提供一个静态页面,以便他们阅读您的内容。

恶意网站有时服务自动生成的,SEO优化的内容的搜索引擎排名在搜索高,但人类提供用户一个简单的页面与广告,而不是推动收入。

这个答案是作为一种替代到正常的动态内容,如已经icyrock-COM描述的答案,是获得另一页比谷歌显示的原因。

相关问题