2014-11-14 61 views
0

我参考了这个类似的查询twitter/facebook comments classification into various categories但我的问题有点不同。我有一些10k的推文,我想将它们分为4类,即“旅行”,“购物”,“吃”,“玩”。 现在的事情是,由于推文长度很小,应该使用什么工具将这些推文分为这四类?删除停用词并清理注释后,它们的大小会变得更小,以容纳任何足够相关的信息,以将其分为4类。在这种情况下,哪种算法最适合:“小文本”大小。鸣叫分为4类

我读了一些地方,我应该简单地使用Lucene而不是NLTK。但是,作为Im新的Lucene我真的不明白Lucene将如何在这种多分类中有任何帮助。

+0

只要你知道你在做什么(你使用的算法等等) – badc0re 2014-11-14 12:52:41

+0

@ badc0re谢谢你,但是你会建议什么样的方法来分类推文,你使用python/java/R哪个平台真的没有关系。我应该如何生成这些特征以便将它们分类到特定的类别中。如果你能记下一些阶段性的话,我会非常感激。谢谢一个好朋友! – rzach 2014-11-14 12:55:25

回答

0

那么你可以尝试naive bayesrandom forest或者你可以用无监督算法试图像EM(然后定义基于集群的分组标签)。 请注意所有类中使用的常用词。您可以尝试使用AUC等评估您的表现。同时尝试找到选择功能的方法,称为互信息

祝您好运!

+0

您好,我尝试了每个标签的100个文档的手动标签。现在我有四个类别的100个例子。我现在应该使用哪种分类器。 – rzach 2014-11-18 09:54:33

+0

要获得训练数据并不那么简单,您还应该分析哪些功能用于每个课程并消除不必要的噪音。如果你只想看看整个过程是如何工作的,你可以使用朴素贝叶斯,并查看类的先验概率或特征的联合概率。 – badc0re 2014-11-18 10:52:30

+0

感谢哥们,能否请您建议如何做到这一点朴素贝叶斯,然后我会准备赶上。或者一个教程与你刚刚写的内容有关,因为有太多的问题,我不知道哪一个可以遵循我的案例。从我发布它的那一天起,我一直在研究这个问题,因此我保留只有在我遇到困难时才会回来。万分感谢。 – rzach 2014-11-18 13:02:32