1

我在R中很新,我找不到任何有关可以执行以下操作的包的信息:假设我有一组数据(例如不同的文本文档),它们可以有几个类。使用R的分层预测

例如,基准可以是运动,带球的运动,无球运动和汽车。我希望能够预测数据属于哪个类别,考虑到我可能没有达到该数据是带球的体育项目,但是如果我正确地预测这是一项运动项目,我会很高兴。

哪个包可以提供这种东西?如果可能的话,一些例子会很有用。

在此先感谢

+0

你能否让你的解释和例子更清楚?您是否在寻找多标签分类器,以便每个数据可以同时属于多个类?你为什么称它是分层的? –

+0

这不完全是多标签。我把它称为等级制,因为我必须将我的数据分类到以下“离开”类中:rec/autos,rec/motorcycles,rec/sport /棒球,rec/sport/hockey,sci/crypt,sci/med。请注意,我希望能够预测某些数据,例如至少来自rec类,并尝试在rec子类中进一步推进。那有意义吗? – gcolucci

+0

你可以修改你的问题来显示hiererachy在哪里吗?也许你对SVMstruct感兴趣(http://www.cs.cornell.edu/people/tj/svm_light/svm_struct.html),它不是R,但我不知道R中有任何结构化的分类工具。也许别人有指针? –

回答

0

我不知道R中的任何特定的软件包,可以做到分层分类的。所以有两种选择:

  • 使用C API SVMstruct http://www.cs.cornell.edu/people/tj/svm_light/svm_struct.html。从头开始编程这将是一些工作。
  • 构建您自己的分层分类系统。在自顶向下的情况下,您将为每个级别设置一个多级分类器,例如rec vs sci和摩托车vs sport等。您将使用顶级分类器并使用其预测来选择下一个分类器。用于训练带有节点的分类器的数据是以该节点为根的子树中所有数据的并集。

有关详细信息,例如, http://jmlr.org/papers/v6/tsochantaridis05a.html

+0

感谢您的帮助,@kap。我会尽力执行你的第二个建议,让我们希望一切顺利 – gcolucci