2014-10-29 71 views
0

我的网站上有一些受限制的部分供蜘蛛抓取。蜘蛛是否只抓取站点地图中的网址

引用仅包含我希望蜘蛛索引的url的sitemap.xml文件就足够了吗?

或者我应该添加以下元标记到页面我想限制访问?

<meta name="robots" content="NONE,NOARCHIVE" /> 
+1

这个问题似乎是题外话,因为它是关于SEO – 2014-10-29 19:59:57

回答

0

您应该“禁止”那些您不希望蜘蛛在robots.txt中抓取的页面。蜘蛛甚至不会加载这些页面,不必介意索引它们。阅读在这里:http://www.robotstxt.org/

如果你想有一个蜘蛛读取网页,但没有对其进行索引,然后添加“noindex”标记,像这样:

<meta name="robots" content="noindex"> 

爬行肯定会抓取和索引的页面不在sitemap.xml中

+0

,如果我不想让蜘蛛读取或索引我的网站的一部分? – DjangoPy 2014-10-29 20:07:28

+0

机器人文件可以阻止爬虫通过文件夹读取您网站的某个部分。像“禁止/私人”,它不会读取任何启动/私人的URL的文件。一旦你这样做了,哪些标签在页面上并不重要 - 因为爬虫不能再看到标签。 – 2014-10-29 20:42:38

+0

当你想要爬虫不通过索引页来阅读时,像“noindex”这样的标签就在那里。 – 2014-10-29 20:43:16

1

页面不一定要在XML站点地图中列出才能被抓取。蜘蛛会抓取任何他们能找到的东西。如果您想阻止抓取网页,则需要使用robots.txt文件阻止该网页。

您不希望网页被列在搜索引擎的搜索结果中,您需要使用x-robots-tag明确阻止它们这样做。只阻止网页被抓取是不够的,因为Google may still list a page it can't crawl if it deems that page is important and should be in its search results

您可以使用元标签:

<meta name="googlebot" content="noindex"> 

或者HTTP头:

X-Robots-Tag: noindex