2013-03-03 92 views
-2

我是新来编程,所以请如果我说一些愚蠢的事不要评判我。使用php隐藏网络爬虫的内容。可能吗?

我想知道是否有任何方式来欺骗网络爬虫,所以一些网站的内容将是一个人类访客不同,不是一个网络蜘蛛。

所以这里有一个想法,我想。

每次访客进入一个页面,会有一个脚本,将确定从Facebook API用户的性别。如果有返回(如果用户在同一个浏览器中连接到Facebook),那么一些代码将用PHP打印到页面代码中。如果它是抓取工具,则不会返回,因此该代码不会存在于该页面的源代码中。

我知道PHP是一个服务器端语言,所以网络爬虫不必permition扫描这些代码。如果我不对,请纠正我。

谢谢。

+1

请参阅[1](http://stackoverflow.com/questions/677419/how-to-detect-search-engine-bots-with-php)和[2](http:// www.cult-f.net/detect-crawlers-with-php/)可以帮助你 – 2013-03-03 15:41:12

+0

你是假设所有的人类游客)有一个Facebook账户,b)登录到Facebook时,他们访问您的网站,以及c )他们的个人资料是公开的,或者他们明确允许您的网站访问其个人资料 – JJJ 2013-06-16 05:50:09

回答

0

我想你正在尝试做的可以使用robots.txt

此文件可以在您的网站的根目录下坐下来完成,它定义了网络爬虫规则。 请参阅:http://www.robotstxt.org/

+0

robot.txt是不可行的。它更多的是关于你的谷歌要求,而不是任意的。另外,当用户从根目录手动打开robot.txt时,用户会看到什么? – samayo 2013-03-03 15:46:59

+0

我知道一些抓取工具可以忽略robots.txt。无论如何感谢您的答案。 – Steve 2013-03-03 15:52:03