2015-04-02 88 views
1

我就从Twitter收集数据,并在其上进行处理的工作,以干净的脏的文字,但我有一个问题:文字是脏的,如何用java

例如:

String dirtyText="this*is#a*&very_dirty&String"; 

例如:

String dirtyText="All f dis happnd bcause u gave ur time, talent n passion."; 

请让我尽可能简单。

+0

你的输入脏字符串与你输出的脏字符串不匹配? – 2015-04-02 16:16:43

+0

对于我们建议的解决方案,您必须告诉我们您的要求是什么意思的“干净” – Samuel 2015-04-02 16:18:45

+0

第一个可能是通过删除非字母字符可行。但是没有“简单”的方法来做第二个 – ortis 2015-04-02 16:19:02

回答

0

这不是一个容易解决的问题。 All f dis happnd可以被“清理”以产生All *of* this happenedAll *if* this happened。对于第一个例子,您只能用空格替换所有非字母字符。请参阅this question了解如何操作。

否则我认为你需要一个自然语言处理器,或者至少是一个拼写检查器。猜测Tweet应该以正确的英文表达是一个非常复杂的问题。看看Jazzy的开源拼写检查器。