2017-04-14 62 views
0

如何删除标签,用户提到&推文网址。 Twitter4j库(情感分析)不能与这些噪声词正常工作如何从推文中删除hashtag,用户提及和URL。 Twitter4j库(情感分析)无法正常使用这些噪音字

举例: 鸣叫:你好伟大今天早上#summermorning @evilpriest @holysinner https://goo.le/asxmo/dataload .......

应该看起来像 - 你好,今天早上好,早上好,

在twitter4J本身有没有什么方法或工具可用,或者我们需要写自己的?请指导。

+0

你需要编写自己的方法 – FeanDoe

回答

0

使用正则表达式在通过情感分析管道解析句子之前过滤#es! 使用此:

String withoutHashTweet = originalTweet.replaceAll("[#]", ""); 

所以“你好伟大今天早上#summermorning @evilpriest @holysinner”应该返回:“你好大今天上午summermorning @evilpriest @holysinner”

同样与替换哈希代码@删除相应的标志

0

类似的东西:

let tweet = "@arthurlacoste check this link : http://lit.ly/hugeLink ! so #nsfw"; 

tweet = tweet.replace(/(?:https?|ftp):\/\/[\n\S]+/g, '') // remove links 
     //.replace(/\#\w\w+\s?/g, '') remove hashtags words 
     .replace('#', '') // remove hashtags only 
     .replace(/\@\w\w+\s?/g, ''); // remove mentions 

console.log(tweet); 

// output : "check this link : ! so nsfw"