我正在寻找一种方法来搜索TB模式匹配正则表达式的数据。实现确实需要支持正则表达式的许多更好的功能,例如开始和结束行数据,全TR1支持(最好具有POSIX和/或PCRE支持)等等。我们正在有效地使用此应用程序来测试有关存储潜在敏感信息的政策。基于模式(正则表达式)的搜索系统
我已经研究过索引解决方案,但大多数商业套件似乎没有我们想要的更精细的正则表达式能力(到目前为止,他们在解析复杂的正则表达式时完全失败了,重新使用)。
这是一个复杂的问题,因为我们拥有的数据量非常庞大,我们必须为扫描任务贡献大量的系统资源(并不是太多,它只是检查策略遵从性,所以在那里在硬件方面预算不大)。
我看着Lucene,但我对使用索引系统有点犹豫,因为索引系统不能完全处理我们的正则表达式电池,并且在搜索整个数据集时可以解决这个问题,所以我们不得不让服务器至少在几周内一直执行这些操作。
有什么建议吗?
这可能是我们给定参数中最实际的解决方案,尽管我不太需要满足用户的大量干预,但应用似乎满足了我们的需求。 – tearman 2009-11-25 20:21:05
也许如果您联系制作PowerGREP的公司,您可以让他们向您授权您可以从应用程序调用的组件。通常,中小型软件公司都会接受这样的机会。 – shadit 2009-12-01 16:59:40