我已经看到了Stackoverflow中“有效搜索文件中的字符串”问题的几个变体,但不像我的情况。在(非常大的)文本中计算(大量)字符串
我有一个文本文件,其中包含一个相对较大的数字(> 300K)的字符串。绝大多数这些字符串是多个词(例如,“普莱西诉弗格森”,“约翰史密斯”等)。
从那里,我需要搜索非常大的一组文本文件(一组总共大于10GB的合法文档)并计算这些字符串的实例。
因为搜索字符串的数量,有多个单词的字符串和搜索目标的大小,很多“标准”的解决方案似乎倒在路边。
有些事情简化问题一点点 -
我不需要复杂的符号化/词干/等(如我所关心的唯一实例是“普莱西诉弗格森。”,不需要担心“普莱西”,“普莱西等”)
会有一些重复(例如,多个人名为“约翰史密斯”),但是,这不是一个非常这个数据集有统计学意义的问题,所以......如果多个John Smith被合并成一个单一的计数,那么现在就可以。
我只需要计算这些特定的实例;我并不需要返回搜索结果
在1个文件10个实例数相同,每10个文件
快速/肮脏的方式来解决这个问题有什么建议1个实例?
我已经调查了NLTK,Lucene &其他人,但他们似乎是矫枉过正的问题,我试图解决。我应该把它吸入并将所有内容导入到数据库中? bruteforce grep它300K次? ;)
我的首选开发工具是Python。
要搜索的文档主要是法律文档这样的 - http://www.lawnix.com/cases/plessy-ferguson.html
预期的成果是对的情况下是如何经常跨越这些文档中引用tallys - “普莱西v弗格森:15”
你能否解释多一点什么输入你想用它做什么?像之前/之后的例子总是很好!真的有助于提供一个很好的答案... – 2011-06-15 17:20:54