鸣叫分为4类

我参考了这个类似的查询twitter/facebook comments classification into various categories但我的问题有点不同。我有一些10k的推文，我想将它们分为4类，即“旅行”，“购物”，“吃”，“玩”。现在的事情是，由于推文长度很小，应该使用什么工具将这些推文分为这四类？删除停用词并清理注释后，它们的大小会变得更小，以容纳任何足够相关的信息，以将其分为4类。在这种情况下，哪种算法最适合：“小文本”大小。鸣叫分为4类

我读了一些地方，我应该简单地使用Lucene而不是NLTK。但是，作为Im新的Lucene我真的不明白Lucene将如何在这种多分类中有任何帮助。

来源

2014-11-14 rzach

只要你知道你在做什么（你使用的算法等等） – badc0re 2014-11-14 12:52:41

@ badc0re谢谢你，但是你会建议什么样的方法来分类推文，你使用python/java/R哪个平台真的没有关系。我应该如何生成这些特征以便将它们分类到特定的类别中。如果你能记下一些阶段性的话，我会非常感激。谢谢一个好朋友！ – rzach 2014-11-14 12:55:25

那么你可以尝试naive bayes，random forest或者你可以用无监督算法试图像EM（然后定义基于集群的分组标签）。 请注意所有类中使用的常用词。您可以尝试使用AUC等评估您的表现。同时尝试找到选择功能的方法，称为互信息

祝您好运！

来源

2014-11-14 13:01:10 badc0re

您好，我尝试了每个标签的100个文档的手动标签。现在我有四个类别的100个例子。我现在应该使用哪种分类器。 – rzach 2014-11-18 09:54:33

要获得训练数据并不那么简单，您还应该分析哪些功能用于每个课程并消除不必要的噪音。如果你只想看看整个过程是如何工作的，你可以使用朴素贝叶斯，并查看类的先验概率或特征的联合概率。 – badc0re 2014-11-18 10:52:30

感谢哥们，能否请您建议如何做到这一点朴素贝叶斯，然后我会准备赶上。或者一个教程与你刚刚写的内容有关，因为有太多的问题，我不知道哪一个可以遵循我的案例。从我发布它的那一天起，我一直在研究这个问题，因此我保留只有在我遇到困难时才会回来。万分感谢。 – rzach 2014-11-18 13:02:32

鸣叫分为4类

回答

相关问题