0
我正在尝试在我的阿拉伯文字上使用StringToWordVector
过滤器,并且我想要移除英文字母和数字以及表情符号“我的数据是推文”并且我想要只保留阿拉伯文字。 有谁知道如何用StringToWordVector
过滤器做到这一点? 顺便说一句,我使用Weka库的Java。如何使用StringToWordVector过滤器从阿拉伯文字中删除英文字母
我正在尝试在我的阿拉伯文字上使用StringToWordVector
过滤器,并且我想要移除英文字母和数字以及表情符号“我的数据是推文”并且我想要只保留阿拉伯文字。 有谁知道如何用StringToWordVector
过滤器做到这一点? 顺便说一句,我使用Weka库的Java。如何使用StringToWordVector过滤器从阿拉伯文字中删除英文字母
您正在使用Java,因此请使用简单的字符串操作来简化它。
要删除拉丁文字母和数字(其中英语使用):
String cleaned = input.replaceAll("[a-zA-Z0-9]", "");
的“表情”的定义是松散的,但他们也删除尝试:
String cleaned = input.replaceAll("[a-zA-Z0-9]|[:;]-?[()ODp]", "");
感谢您的答复,我会试试这个,但是因为我必须在清理完成之后在训练数据集上构建分类器,这是从“实例”类型中清除的,我该怎么做? –