2013-03-07 139 views
2

我正在做阿拉伯语言的情感分析,我想创建自己的语料库,要做到这一点,我从Facebook收集了300个状态,并将它们分类为正面和负面,现在我想做这些状态的标记化,以获得单词列表,并且生成unigrams和bigrams,trigrams并使用跨折叠验证,我现在使用的是nltk python,这个软件能够完成这个任务fr阿拉伯语言或雷帕Minner会更好地工作,你怎么看,我想知道如何生成bigrams,trigrams和使用交叉验证,有什么想法吗?创建阿拉伯语语料库

+1

如果您使用正确的标记器,NLTK可以处理阿拉伯语。请参阅:http://stackoverflow.com/questions/13035595/tokenization-of-arabic-words-using-nltk。 – verbsintransit 2013-03-07 21:47:50

+0

我与MALLET有更好的运气。我同意上面的评论。正确的分词器可以处理阿拉伯语。一旦你将文本标记化,那么管道的其余部分就不会改变。 – Shane 2013-03-15 22:57:08

回答

0

嗯,我认为rapidminer是非常有趣的,可以处理这个任务。它包含几个处理文本挖掘的操作员。此外,它还可以创建流利程度高的新运营商。