我试图使用正则表达式在日语句子中匹配汉字化合物。如何区分正则表达式| (OR)表达式?
现在,我使用/ ((.)*) /
在匹配空格分隔的化合物,例如,彼はそこに ひと人 でいた。
的问题是,在某些句子中的单词开头,或遵循的标点符号。防爆。 いっ瞬 の間が生まれた。
或一昨じつ、彼らはそこを出発した。
我已经试过像/ ((.)*) |^((.)*) | ((.)*)、 etc.
但这匹配彼はそこに ひと人
而不是ひと人
在彼はそこに ひと人 でいた。
有什么办法收拾这一切都在一个单一的正则表达式,或者我必须使用一个,检查是否它返回任何东西,然后尝试另一个如果不是?
谢谢!
P.S .:我使用PHP来解析句子。
你试过用字边界('\ b')吗? –
你使用什么语言/正则表达式实现? – Gumbo
\ b似乎没有帮助,甚至与日本人一起工作。 –