0
我需要制作一个能够英文单词的标记器。有关正则表达式和标记的问题
目前,我卡在字符,他们可以成为一个URL表达式的一部分。例如,如果字符':','?','='是url的一部分,我不应该将它们分割。
我的qns是,这可以用正则表达式吗?我从here
正则表达式
\b(?:(?:https?|ftp|file)://|www\.|ftp\.)
(?:\([-A-Z0-9+&@#/%=~_|$?!:,.]*\)|[-A-Z0-9+&@#/%=~_|$?!:,.])*
(?:\([-A-Z0-9+&@#/%=~_|$?!:,.]*\)|[A-Z0-9+&@#/%=~_|$])
,但我不知道如何拼凑的一切,例如,如果字符上述表达式中发现,请不要将它们之间的间隔。
帮助!
能够英文单词的分词器吗?我不小心整个事情! – jathanism 2010-09-09 13:24:21