我正在开发一个Web数据挖掘项目,通过爬取服务器页面直接从HTML中提取信息。我的努力只集中在一个具有java web服务器的特定网站上,并安装了caucho树脂。如何获取Web服务器中的servlet参数列表?
参数由值对传递的url,像www.xxxxxx.com/jm/search?act=see&id=909&...
我已经尝试解码的许多参数,但是,当然,结果很慢正在添加。
我的问题是......你的Java大师知道如何让这种服务器的所有有效参数?有可能的?
我没有访问服务器,我不知道一无所知的Caucho树脂,我编码的工具用Java做的工作。
我说的是参数不是值。通过查看“隐藏”标签的HTML源代码,我确实找到了许多这样的标签,但这些标签并不是唯一标签,因为我可以通过反复试验找到更多。 – ruhalde
您需要遍历整个字符集,多个长度,并确定它们中是否有任何影响实际返回的内容。但是,根本无法获得完整的列表。 –