2010-05-05 47 views
2

我创建了一个关于某个啤酒品牌的网站,并且必须包含年龄验证页。验证脚本以PHP编写,并使用会话来存储验证变量。该脚本的工作方式不管形式为哪一个链接,您都会尝试进入该网站,它会首先将您带到验证页面。验证非常简单。有2个按钮:“我在21岁以下”和“我21岁以上”。如果你点击后者,你可以浏览网站。年龄验证表格和抓取工具

经过一段时间,我发现网络抓取工具无法通过验证页面。我使用Google网站站长工具查看了网站,唯一扫描的文本内容来自验证页面。

我在某处读到爬虫无法提交表单按钮,这是真的吗?考虑到年龄验证页面无用的事实,也许我应该将其作为起始页面,但不要绕过它,例如,从链接到子页面?

回答

2

只要您的年龄验证页面检测到主要爬虫用户代理并重定向到主内容页面。您可以在同一代码块中自动设置所需的变量。

4

为什么不让按钮链接而不是提交按钮。

+2

使“我不是21”表单按钮,但“我是21”链接。这样的网络爬虫不会成为未成年人。 – 2010-05-05 19:36:18

+0

+1发情。有趣和功能。 – webbiedave 2010-05-05 19:37:31

+0

应用少量的CSS,它们看起来就像按钮。 – 2010-05-05 19:41:37