2011-05-07 219 views
1

我处理包含希腊文和英文(拉丁文)文本的字符串。我想用正则表达式来捕捉所有包含4个或更多字符的希腊字。正则表达式希腊字符编号

使用正则表达式手册我发现我可以使用\ p {希腊语}来抓取所有希腊语单词和\ w {4,}以抓取4个以上的字符单词。但是,从我做的各种测试来看,这两者不能一起工作。

有没有什么办法做我想要使用1个正则表达式?字符串是UTF-8并从推文中发出。

Regards

+0

告诉我们什么是你的失败。我被困在im'agining如何你需要结合这些表达式(afaict'\ w {4,}专注于'\ p {希腊}'为什么你需要这两个?) – sehe 2011-05-07 09:40:12

回答

3

您是否正在使用UTF-8模式修饰符?

/\p{Greek}{4,}/u 
+0

谢谢,工作正常:-) – 2011-05-07 17:58:52