2011-04-21 88 views
0

我有一个管理应用程序需要通过SSL进行HTTP验证。我在我的网站的robot.txt文件中包含了管理应用程序的路径。Web蜘蛛和HTTP验证

我宁愿没有任何地方可以看到管理应用程序的路径。单独的HTTP验证会阻止网页蜘蛛索引页面吗?

回答

1

如果您使用合适的4xx(而不是HTTP 410或HTTP 404)HTTP状态码进行响应,那么确定HTTP身份验证将停止Google将此页面编入索引。

看到:http://www.google.com/support/webmasters/bin/answer.py?answer=40132

此外,你可以发送

X-Robots-Tag: noindex 

HTTP头,使多余的肯定。

看到:http://code.google.com/web/controlcrawlindex/docs/robots_meta_tag.html

噢,包括在robots.txt文件中的URL使得它更可能是谷歌索引的网页....的robots.txt是一个爬行指令,它基本上是说:DO不会获取该网址的内容。所以谷歌不知道它是一个HTTP认证,但由于爬网是可选的索引(是的,真的),该网址可能(并且这是一个非常大的可能)反正在谷歌搜索结果中购物。我在这里更详细地解释了google(bot)漏斗pages not indexed by Google

正确的HTTP状态头和x-robot-tag更适合确保url不显示在谷歌中(但如果robots.txt指令保持原位)

+0

谢谢。顺便说一句,我的意思是我在robots.txt中包含了一个“拒绝”。 – Simian 2011-04-22 17:00:03