功能选择

我拥有文档术语数据，其中的术语以维度表示。我必须对术语进行特征选择，我打算使用“互信息”作为执行特征选择的措施。我的疑问是，在计算所有可能的配对之间的相互信息之后，我们应该做什么？我应该设置一个阈值并选择落入阈值范围内的所有对的条款吗？功能选择

2013-03-06 pooja

是的，这是通常会做的事情。 – 2013-03-06 09:24:38

谢谢@LarsKotthoff你能告诉我们什么基础上我们可以决定的门槛？ – pooja 2013-03-06 10:17:58

取决于您的具体数据以及您想保留多少功能。理想情况下，您会发现突然发生重大变化，从几乎没有互信息到大量相互信息，这些信息会告诉您在哪里放置阈值。实际上，情况可能并非如此。 – 2013-03-06 10:19:34

如果你想使用互信息，你可以考虑使用mRMR algrorithm。您可以使用此类算法来选择要素。我的意思：

You have n features at your data set (it means n dimensions)

如果你想使用最有意义的

k of n (k < n)

您可以使用（使用互信息的背景即与MRMR）特征选择

决定ķ依赖在某些情况下。

你删除了一些功能后，您应该测试你的算法。你检查精度是否提高，并根据你的目标，即使精度下降，从而避免计算成本（所以你可能想要放弃一些功能）

另一方面，我建议你看功能提取方法，即PCA和LDA（尤其适合您的情况）。

2013-03-06 13:17:08 kamaci

mRMR需要在手之前知道类（监督）。什么样的方法应该用于特征选择时不知道类标签？ – pooja 2013-03-07 09:34:00

回答