我的网站上有一些受限制的部分供蜘蛛抓取。蜘蛛是否只抓取站点地图中的网址
引用仅包含我希望蜘蛛索引的url的sitemap.xml文件就足够了吗?
或者我应该添加以下元标记到页面我想限制访问?
<meta name="robots" content="NONE,NOARCHIVE" />
我的网站上有一些受限制的部分供蜘蛛抓取。蜘蛛是否只抓取站点地图中的网址
引用仅包含我希望蜘蛛索引的url的sitemap.xml文件就足够了吗?
或者我应该添加以下元标记到页面我想限制访问?
<meta name="robots" content="NONE,NOARCHIVE" />
您应该“禁止”那些您不希望蜘蛛在robots.txt中抓取的页面。蜘蛛甚至不会加载这些页面,不必介意索引它们。阅读在这里:http://www.robotstxt.org/
如果你想有一个蜘蛛读取网页,但没有对其进行索引,然后添加“noindex”标记,像这样:
<meta name="robots" content="noindex">
爬行肯定会抓取和索引的页面不在sitemap.xml中
,如果我不想让蜘蛛读取或索引我的网站的一部分? – DjangoPy 2014-10-29 20:07:28
机器人文件可以阻止爬虫通过文件夹读取您网站的某个部分。像“禁止/私人”,它不会读取任何启动/私人的URL的文件。一旦你这样做了,哪些标签在页面上并不重要 - 因为爬虫不能再看到标签。 – 2014-10-29 20:42:38
当你想要爬虫不通过索引页来阅读时,像“noindex”这样的标签就在那里。 – 2014-10-29 20:43:16
页面不一定要在XML站点地图中列出才能被抓取。蜘蛛会抓取任何他们能找到的东西。如果您想阻止抓取网页,则需要使用robots.txt文件阻止该网页。
您不希望网页被列在搜索引擎的搜索结果中,您需要使用x-robots-tag
明确阻止它们这样做。只阻止网页被抓取是不够的,因为Google may still list a page it can't crawl if it deems that page is important and should be in its search results。
您可以使用元标签:
<meta name="googlebot" content="noindex">
或者HTTP头:
X-Robots-Tag: noindex
这个问题似乎是题外话,因为它是关于SEO – 2014-10-29 19:59:57