2013-03-06 130 views
0

我拥有文档术语数据,其中的术语以维度表示。我必须对术语进行特征选择,我打算使用“互信息”作为执行特征选择的措施。我的疑问是,在计算所有可能的配对之间的相互信息之后,我们应该做什么? 我应该设置一个阈值并选择落入阈值范围内的所有对的条款吗?功能选择

+0

是的,这是通常会做的事情。 – 2013-03-06 09:24:38

+0

谢谢@LarsKotthoff你能告诉我们什么基础上我们可以决定的门槛? – pooja 2013-03-06 10:17:58

+0

取决于您的具体数据以及您想保留多少功能。理想情况下,您会发现突然发生重大变化,从几乎没有互信息到大量相互信息,这些信息会告诉您在哪里放置阈值。实际上,情况可能并非如此。 – 2013-03-06 10:19:34

回答

1

如果你想使用互信息,你可以考虑使用mRMR algrorithm。您可以使用此类算法来选择要素。我的意思:

You have n features at your data set (it means n dimensions) 

如果你想使用最有意义的

k of n (k < n) 

您可以使用(使用互信息的背景即与MRMR)特征选择

决定ķ依赖在某些情况下。

  • 其中之一是你不想在你的 模型创建中使用不必要的功能。

  • 另一件事是要aviod计算成本,并从数据中删除一些 功能设置

你删除了一些功能后,您应该测试你的算法。你检查精度是否提高,并根据你的目标,即使精度下降,从而避免计算成本(所以你可能想要放弃一些功能)

另一方面,我建议你看功能提取方法,即PCA和LDA(尤其适合您的情况)。

+0

mRMR需要在手之前知道类(监督)。什么样的方法应该用于特征选择时不知道类标签? – pooja 2013-03-07 09:34:00