2011-06-01 63 views
1

我有超过30万个文本和html文件的静态集合。我希望能够搜索他们的单词,确切的短语,理想的正则表达式模式。我希望搜索速度很快。如何去索引300,000个用于搜索的文本文件?

我想寻找的单词和短语可以通过查找引用的对包含每一个字的文件唯一字的字典来完成,但有没有办法有相当快的正则表达式匹配?

我不介意使用现有的软件,如果存在的话。

+0

你**不介意使用exsiting软件**的顶部?严重的是,这个问题对于一个人及时执行来说太复杂了。这不属于这里。 – 2011-06-01 05:39:39

+0

是的,快速正则表达式搜索是可能的,如http://www.google.com/codesearch所示。但我不知道他们是如何做到的。 – 2011-06-01 05:46:26

+0

他们是谷歌,就是这样。 – jtbandes 2011-06-01 05:51:49

回答

4
+0

Lucene是否支持使用正则表达式进行搜索? – 2011-06-01 05:44:44

+0

是的,看到http://lucene.apache.org/java/2_3_2/api/contrib-regex/org/apache/lucene/search/regex/RegexQuery.html – tofutim 2011-06-01 05:54:19

+0

现在检查它,感谢您的建议。 – Bicubic 2011-06-01 06:06:36

1

有相当的市场,这将帮助你实现你想要什么可用的一堆,有些是开放源和一些带有定价:

开源:

elasticsearch - 基于Lucene

constellio - 基于Lucene

Sphinx - 基于C++

Solr - 建立在Lucene的