0

我正在寻找一种方法在文本中查找某些特定的模式。例如,如果我想找到一个文本格式,这样所有引用:在文本中查找字符串的特定模式

  • 男爵,纳奥米(2000)字母来电子邮件:如何写英文演进以及它的航向,劳特利奇:伦敦和纽约。

所以任何类似的东西都会从输入文本中返回。有没有什么算法对此很好。目前为止我发现的所有算法都是在文本中搜索相似的字符串。

我在考虑使用正则表达式,但我不知道这是否是最好的方法,因为我需要一些能够计算相似度索引的东西,然后返回具有最佳分数的匹配。

+0

什么语言?听起来像你需要像[狮身人面像](http://sphinxsearch.com/) –

+1

描述你在寻找什么更好 - 尝试描述[grammer](http://en.wikipedia.org/wiki/Formal_grammar)随着更多的例子。一旦你这样做了 - 这将是明确的正则表达式是否足够,或者你可能需要一个[context-free](http://en.wikipedia.org/wiki/Context-free_language)解析器(以及:[LR? SLR?](http://en.wikipedia.org/wiki/LR_parser)也许[LL](http://en.wikipedia.org/wiki/LR_parser)?) – amit

+0

解析这些字符串是计算相似性是两个不同的任务。 –

回答