2017-01-16 80 views
0

我已经配置了网址来抓取网页内容数据。所有网络数据都在我的GSA中成功抓取,但在索引诊断中,我收到了一个URL中的“Excluded:Robots no index”消息,并且该URL中的文档未在GSA中编入索引。排除:机器人没有索引

文档不包含任何[META NAME =“ROBOTS”CONTENT =“NOINDEX,NOFOLLOW”] metatag。

你在GSA中观察过这种行为吗?

回答

0

检查相关robots.txt的内容,如果它不在实际页面中作为元数据,则会出现规则。

+0

我已经检查robot.txt文件,并且没有发现任何规则,为此网址禁止url模式....也没有规则在页面 –

+0

继续寻找,你有一个规则定义的地方,GSA只是表彰它。 – BigMikeW

0

签入开始和阻止URL>不跟随GSA配置中的模式。它可能已被排除在那里。

0

我也有这个问题。我首先通过使用在线robots.txt测试人员验证了我的URL没有被从索引中排除。然后,我在GSA的“开始和阻止URL”中测试了我的链接,以确保它与任何阻止过滤器不匹配。

一旦这些可能性被消除,我去索引 - >诊断 - >索引诊断,并选择适用的集合。从那里,一旦我钻完并单击文件名,就会出现一个屏幕,其中包含一个“重新抓取此URL”的按钮。点击这个按钮为我解决了这个问题。