feature-selection

-2热度

1回答

我有一个任务需要使用计算机视觉来解决，但我无法弄清楚哪种特征是理想的提取。我可以训练一个可以做分类的CNN网络，然后可以知道它使用了什么样的特征，以及用什么来区分A类和B类？然后用openCV或类似的方法做同样的事情吗？

0热度

1回答

因此，目前我的训练和测试集以669个功能开始，其中许多功能是分类的，并且需要进行一次性编码。经过一个热点编码两个集合后，我发现训练集具有附加功能。我不太知道如何处理这一点，但我觉得我有三种选择：取下训练这些功能设置这样既投其所好添加这些功能测试集和产生合成数据。在我训练模型之前，使用一些降维技术（PCA）并使用相同数量的组件进行训练和测试。任何反馈将不胜感激。

5热度

1回答

使用Scikit-learn进行信息增益计算

我正在使用Scikit-learn进行文本分类。我想计算每个属性相对于（稀疏）文档项矩阵中的类的信息增益。信息增益定义为H（Class） - H（Class | Attribute），其中H是熵。使用weka，这可以通过InfoGainAttribute来完成。但我还没有在scikit-learn中找到这个方法。但是，信息增益上面的公式与互信息是相同的度量，它已经是suggested。这也匹

-1热度

1回答

为什么我们使用相关系数进行特征选择？

我正在学习功能选择。我发现了this，并看到许多内核检查相关系数矩阵。（在上面的链接中，他们介绍了3种特征选择方法，其中第一种是包括相关系数和卡方检验的滤波方法）。为什么我们可以使用相关系数进行特征选择？我认为它只能表示2个变量之间的线性关系，所以它不能代表2个或更多个变量或非线性关系组合的影响。所以我不知道相关系数是否适合特征选择。为什么以及如何使用特征选择？

0热度

1回答

回归中的特征选择和预测准确性R中的森林

我试图解决输入特征集大小约为54的回归问题。对单个预测变量'X1'使用OLS线性回归，我无法解释Y中的变化 - 因此我试图使用回归森林（即随机森林回归）来查找其他重要特征。后来发现选定的'X1'是最重要的特征。我的数据集有〜14500个条目。我已经将它按比例9：1分成了训练和测试集。我有以下问题：试图找到重要的功能时，我应该运行在整个数据集的回归森林，或只在训练数据？一旦发现重要特征，应

0热度

1回答

Scikit学习SVM功能名称

我正在开发一个使用Scikit学习的SVM分类器。我有378个功能，我发现在适配我的分类器后，我的数据的最佳功能数量是41个。现在我想知道这41个功能究竟是什么。排名每个功能的重要性，我用： selector.ranking_ 这给了我下面的输出： array([294, 285, 265, 239, 345, 240, 231, 282, 284, 341, 344, 244, 224,

2热度

1回答

如何在java中构造贝叶斯信念网络？有没有图书馆？ API？

假设我有一个包含10个特征和一个班级的数据集。现在，我想在这些特征之间构建贝叶斯信念网络。我将如何能够在java中做到这一点？有没有API或机器学习库？任何提示或任何起点将不胜感激。

-2热度

1回答

什么是最好的方式来表示星期几和星期几作为机器学习中的价值预测模型的一个特征？

当使用机器学习中的功能并以矩阵表示它们时，推荐的方法是将每天的小时和星期几表示为值预测模型的功能？对于所有小时值和小时值1使用0表示将这些属性表示为特征的首选方式？一周中的哪一天都一样？感谢

0热度

2回答

特征选择Scikit学习

在scikit-learn中运行特征选择后，我想公开相关变量，向我显示从方法中选择的变量，它怎么可能？命令X.shape只显示变量的数量，我想在功能选择后看到变量的名称。 from sklearn.datasets import load_iris from sklearn.feature_selection import SelectKBest from sklearn.feature_se

0热度

1回答

CfsSubsetEvaluator在进行特征选择时，在选择交叉验证的每个步骤中的特征时使用多少和/或什么标准？

我对WEKA相当陌生，我有一个数据集111 cases与109 attributes。我正在使用WEKA中的功能选项卡CfsSubsetEval和BestFirst search method以供feature selection使用。我正在使用leave-one-out cross-validation。所以，多少特征不WEKA挑或什么是停止标准为特征的数目这个方法选择在交叉验证的各步骤谢谢