我需要来标记与此字符串,例如文本:"hello 502world a0.0.3b .1.4 <sub>5</sub>"
如何把字符串中的所有数字字符串“NUM”在Python
我希望把它转化为:"hello NUMworld aNUMb NUM <sub>5</sub>"
注意除了502之外,0.0.3和.1.4也变成了NUM,也变成了NUM,但是在子里面我想保持这个数字相同。
文本具有非ASCII字符在它
公告再次,如果数字是子 之间,所以应该留号码。
这是一个示例文本是从here。
你是不是真正的 “标化”,它,因为输出不是令牌列表,它只是一个修改过的字符串。所以...只是使用正则表达式来修改字符串。如果你想标记,我的答案可能会有所不同。 – RobertB
我已经给每件事情都付出了努力,但我需要多过滤一下 – Yonlif