2011-12-07 20 views
2

当Google的蜘蛛抓取我的一个网站时,它们将选择列表中的数据作为页面数据提取。我完全理解为什么会发生这种情况,但问题是,它能以任何方式阻止吗?我不想阻止整个网页被抓取,而只是选择列表数据。来自Google Bot的阻止选择列表数据

问题如下:在搜索Google时,选择列表数据显示为页面摘要而不是内容。描述标签专门用于帮助搜索引擎优化,并为潜在网站访问者提供有用的信息,但其预期功能尚未实施。

检查该样品的情况下https://www.google.com/search?q=alaskan klee kai site%3Awiki-pet.com

这是伤害在网站上的搜索性能的有效性,因为超过1页被示出在搜索结果中的相同数据。有超过200页与完全相同的选择列表允许轻松导航。选择列表不会被删除。

我有一个想法是有有载填写()的内容脚本的页面有

完全加载后..任何想法?

[编辑]

看看搜索结果#3 & 5含有这样的文字:“全犬种 - - - ,购买affenpinscher,阿富汗猎犬,万能梗,Akbash犬,秋田,Alapaha蓝血斗牛犬,阿拉斯加克利凯,阿拉斯加......“

这是直接从关联页面上的选择列表内容。

+0

我发现了两种可能的解决方案,其中最好看起来粗略。 1)Yahoo的class =“robots-nocontent”的加入2)Google有一个可用于广告的<! - google_ad_section_start(weight = ignore) - >标签。 – BizLab

+0

对于任何未来遇到此问题的人,我会建议加载的项目,你不想由蜘蛛在页面加载完成后使用JS爬行(一种“延迟加载”)。 – BizLab

回答

0

在服务器上,检查用户代理是否匹配Googlebot(或其他流行的蜘蛛,如bingbot),并且不渲染该内容。

+0

据我所知,你不能从机器人中排除某些DIV的内容。通过robots.txt很容易排除整个页面,但这是不可取的。 – BizLab

+0

@BizLab:是的,你可以。只需在'if'中检查'User-Agent'标题。 – SLaks

+0

你有任何示例代码? – BizLab