2012-03-26 71 views
1

有没有简单的方法来检测文本块中的短语模板?短语模板检测

例如,给定文本:

不知道如何处理这一点。这是非常困难的,而且我很难说我不知道​​该怎么做。但是对其他人来说可能很明显?

而且模板:

[X],以及[X]我的意思是[Y]

将导致比赛。

我会假设一些描述的正则表达式是最好的选择,尽管我不知道这样的事情是否可以用正则表达式。

奖金:如果试图连续匹配多个模板,那么计算效率最高的方法是什么?

编辑:只是为了澄清,我只是需要一个完全匹配。例如上面的模板将已符合以下条件:

苹果,苹果我的意思梨

回答

1

如果您需要通过正则表达式匹配,你可以用这一个:

(\w+), and by \1 I mean \w+ 

apple, and by apple I mean pineapple -> match 
apple, and by apple I do mean pear -> not match 

(\w+) - matches 1 word and save it to first group 
\1 - word from first group 
\w+ - match second word 

更多http://regexpal.com/

但如果你真的需要匹配播放与正则表达式你需要很多图案来定义你需要的所有图案并且构建自己的图案finite state machine

+0

非常好,谢谢你的链接! – 2012-03-27 07:58:00