我参考了这个类似的查询twitter/facebook comments classification into various categories但我的问题有点不同。我有一些10k的推文,我想将它们分为4类,即“旅行”,“购物”,“吃”,“玩”。 现在的事情是,由于推文长度很小,应该使用什么工具将这些推文分为这四类?删除停用词并清理注释后,它们的大小会变得更小,以容纳任何足够相关的信息,以将其分为4类。在这种情况下,哪种算法最适合:“小文本”大小。鸣叫分为4类
我读了一些地方,我应该简单地使用Lucene而不是NLTK。但是,作为Im新的Lucene我真的不明白Lucene将如何在这种多分类中有任何帮助。
只要你知道你在做什么(你使用的算法等等) – badc0re 2014-11-14 12:52:41
@ badc0re谢谢你,但是你会建议什么样的方法来分类推文,你使用python/java/R哪个平台真的没有关系。我应该如何生成这些特征以便将它们分类到特定的类别中。如果你能记下一些阶段性的话,我会非常感激。谢谢一个好朋友! – rzach 2014-11-14 12:55:25