我创建了一个关于某个啤酒品牌的网站,并且必须包含年龄验证页。验证脚本以PHP编写,并使用会话来存储验证变量。该脚本的工作方式不管形式为哪一个链接,您都会尝试进入该网站,它会首先将您带到验证页面。验证非常简单。有2个按钮:“我在21岁以下”和“我21岁以上”。如果你点击后者,你可以浏览网站。年龄验证表格和抓取工具
经过一段时间,我发现网络抓取工具无法通过验证页面。我使用Google网站站长工具查看了网站,唯一扫描的文本内容来自验证页面。
我在某处读到爬虫无法提交表单按钮,这是真的吗?考虑到年龄验证页面无用的事实,也许我应该将其作为起始页面,但不要绕过它,例如,从链接到子页面?
使“我不是21”表单按钮,但“我是21”链接。这样的网络爬虫不会成为未成年人。 – 2010-05-05 19:36:18
+1发情。有趣和功能。 – webbiedave 2010-05-05 19:37:31
应用少量的CSS,它们看起来就像按钮。 – 2010-05-05 19:41:37