我正在开发一个正则表达式,可以获取从字幕文件中的文本可以是任何语言的任何编译有时包含Unicode字符正则表达式接受任何字母任何语言,符号或数字
String str=
"1
00:00:25,690 --> 00:00:44,410
As you can see he is no longer 1 year old, he is 12 years old now.
2
00:00:44,410 --> 00:00:58,120
He helps with the baby girl
";
撷取eaching插槽采用ragex:
((^1\n|(\\n\\d+\n))(\\d{2}:\\d{2}:\\d{2},\\d{3}.*\\d{2}:\\d{2}:\\d{2},\\d{3}))[\\p{P}\\p{L}\\p{P}*-,;'\"\\s]+
但最近发现,字幕文本插槽,可以包含数字,所以如何覆盖具有任何字符任何语言的任何Unicode字符和之间的任意数字的一切可能性。
尝试添加\p{N}
但失败。它现在包括时间和字幕顺序以及: 有时是这样的:blah blah blah.400:00:44,410
是否更新正则表达式以匹配在文本槽中找到的数字,但不是字幕定时数的一部分。
是的,它应该是足够的。你测试过了吗? –
是的,但不太可能我会更新问题的结果 – YouYou
@ThomasAyoub我已经更新了问题的状态后添加''\\ p {N}'' – YouYou