2010-09-09 48 views
0

我需要制作一个能够英文单词的标记器。有关正则表达式和标记的问题

目前,我卡在字符,他们可以成为一个URL表达式的一部分。例如,如果字符':','?','='是url的一部分,我不应该将它们分割。

我的qns是,这可以用正则表达式吗?我从here

正则表达式

\b(?:(?:https?|ftp|file)://|www\.|ftp\.) 
    (?:\([-A-Z0-9+&@#/%=~_|$?!:,.]*\)|[-A-Z0-9+&@#/%=~_|$?!:,.])* 
    (?:\([-A-Z0-9+&@#/%=~_|$?!:,.]*\)|[A-Z0-9+&@#/%=~_|$]) 

,但我不知道如何拼凑的一切,例如,如果字符上述表达式中发现,请不要将它们之间的间隔。

帮助!

+0

能够英文单词的分词器吗?我不小心整个事情! – jathanism 2010-09-09 13:24:21

回答

0

我会用一个不同的正则表达式扫描来处理这个问题,将匹配放到一个数组中,从字符串中移除这些匹配,然后像正常一样去做标记器。