2014-09-11 45 views
0

是否有例如可以找到(并列出表单操作等)所有在我的网站中有表单的页面的搜寻器?查找网站上使用的所有<forms>

我想通过独特的操作记录所有页面,然后进一步审核。

回答

1

Norconex HTTP Collector是一个开源的网络爬虫,可以肯定地帮助你。其“导入器”模块具有“TextBetweenTagger”功能,可以在任何开始和结束文本之间提取文本,并将其存储在您选择的元数据字段中。然后,您可以过滤掉没有提取这些文本的文件(查看EmptyMetadataFilter选项)。

您可以在不编写代码的情况下执行此操作。就存储结果而言,该产品使用“提交者”。少数提交者可以随时使用(包括文件系统),但您可能希望编写自己的提交搜索数据的任何地方(例如,在数据库中)。

检查它的configuration page的想法。