2017-04-13 49 views

回答

0

您正在使用Java,因此请使用简单的字符串操作来简化它。

要删除拉丁文字母和数字(其中英语使用):

String cleaned = input.replaceAll("[a-zA-Z0-9]", ""); 

的“表情”的定义是松散的,但他们也删除尝试:

String cleaned = input.replaceAll("[a-zA-Z0-9]|[:;]-?[()ODp]", ""); 
+0

感谢您的答复,我会试试这个,但是因为我必须在清理完成之后在训练数据集上构建分类器,这是从“实例”类型中清除的,我该怎么做? –