蜘蛛是否只抓取站点地图中的网址

引用仅包含我希望蜘蛛索引的url的sitemap.xml文件就足够了吗？

或者我应该添加以下元标记到页面我想限制访问？

<meta name="robots" content="NONE,NOARCHIVE" />

2014-10-29 DjangoPy

这个问题似乎是题外话，因为它是关于SEO – 2014-10-29 19:59:57

您应该“禁止”那些您不希望蜘蛛在robots.txt中抓取的页面。蜘蛛甚至不会加载这些页面，不必介意索引它们。阅读在这里：http://www.robotstxt.org/

如果你想有一个蜘蛛读取网页，但没有对其进行索引，然后添加“noindex”标记，像这样：

<meta name="robots" content="noindex">

爬行肯定会抓取和索引的页面不在sitemap.xml中

2014-10-29 20:02:19

，如果我不想让蜘蛛读取或索引我的网站的一部分？ – DjangoPy 2014-10-29 20:07:28

机器人文件可以阻止爬虫通过文件夹读取您网站的某个部分。像“禁止/私人”，它不会读取任何启动/私人的URL的文件。一旦你这样做了，哪些标签在页面上并不重要 - 因为爬虫不能再看到标签。 – 2014-10-29 20:42:38

当你想要爬虫不通过索引页来阅读时，像“noindex”这样的标签就在那里。 – 2014-10-29 20:43:16

页面不一定要在XML站点地图中列出才能被抓取。蜘蛛会抓取任何他们能找到的东西。如果您想阻止抓取网页，则需要使用robots.txt文件阻止该网页。

您不希望网页被列在搜索引擎的搜索结果中，您需要使用x-robots-tag明确阻止它们这样做。只阻止网页被抓取是不够的，因为Google may still list a page it can't crawl if it deems that page is important and should be in its search results。

您可以使用元标签：

<meta name="googlebot" content="noindex">

或者HTTP头：

X-Robots-Tag: noindex

2014-10-29 20:02:42

回答