2016-12-02 48 views
1

我正在使用robots.txt文件来防止抓取工具抓取特定页面。当我想防止爬行在myfolder一切/folder/myfolder/我可以把robots.txt/folder/myfolder/robots.txt写:放置robots.txt以防止抓取的位置

User-agent: * 
Disallow:/

否则我将不得不把robots.txt/robots.txt,并设置:

User-agent: * 
Disallow: /folder/myfolder/ 

谁知道?

+0

可能重复的[robots.txt允许所有除了少数子目录](http://stackoverflow.com/questions/28495972/robots-txt-allow-all-except-few-sub-directories) – unor

回答

0

的方式robots.txt作品是关闭的URL字符串,所以如果你有一个项目,这是3个目录很深,就像这样:

Home/ 
    /directory/ 
    - file 1 
    - file 2 
    /directory2/ 
     - file 3 

把在此:

User-agent: * 
Disallow:/

将阻止在任何网址上抓取www.yoursite.com /(又名您的整个网站)


的东西把这样的:

User-agent: * 
Disallow: /directory1/ 

将阻止抓取的所有存在于你的directory1文件夹中的网站/目录。因此,在我们的示例中,file 1file 2directory 2不会被抓取。


至于在那里你可以把它,我总是把它放在我的主目录,你把你的index.html文件相同的地方。

+0

Shouldn'除非它实际上是URL路径的一部分(例如,在诸如http:// example.com/www.yoursite.com/directory1 /'的URL中),否则它包含“www.yoursite.com”。 – unor

+1

@unor固定,我们使用一个软件,如果它被放置在现场,必须删除它。感谢通知! –