feature-selection

2热度

2回答

如何在scikit-learn中使用随机Logistic回归找到最低正则化参数（C）？

我试图使用scikit学习Randomized Logistic Regression特征选择的方法，但我一直运行到的情况下，它杀死所有的功能，同时安装，并返回： ValueError: Found array with 0 feature(s) (shape=(777, 0)) while a minimum of 1 is required. 这是符合市场预期，显然，因为我正在将正则化参数 -

12热度

2回答

带字符串/分类特征（变量）的线性回归分析？

回归算法似乎在处理以数字表示的特征。例如：此数据集不包含类别特征/变量。如何对这些数据进行回归并预测价格非常明确。但现在我想做的数据回归分析中包含类别特征：有特点：District，Condition，Material，Security，Type 如何对这些数据进行回归？我是否必须手动将所有这些字符串/分类数据转换为数字？我的意思是如果我必须创建一些编码规则，并根据该规则将所有数据转换为数

0热度

1回答

需要帮助将scikit-learn应用于这种不平衡的文本分类任务

我有一个多类文本分类/分类问题。我有一组具有K不同互斥类的地面实况数据。这在两个方面都是不平衡的问题。首先，有些课程比其他课程更频繁。其次，有些类别比其他类别更感兴趣（这些类别通常与其相对频率正相关，尽管有一些类别的兴趣相当稀少）。我的目标是开发一个单独的分类器或它们的集合，以便能够在保持合理回忆的同时以高精度（至少80％）对感兴趣类进行分类（什么是“合理”有点模糊）。我使用的功能大多是典型

1热度

1回答

并行rfcv从R的randomForest包

我想使用rfcv函数做多变量随机森林功能选择。我设法得到正常的RF命令使用（构建随机森林）模型的并行处理的工作如下： library(randomForest) library(doMC) nCores <- detectCores(); registerDoMC(nCores) #number of cores on the machine rf.model <- foreach(ntr

3热度

1回答

从功能集合中选择合奏功能

我有关于合奏功能选择的问题。我的数据集由1000个具有约30000个特征的样本组成，它们分为标签A或标签B. 我想要做的是挑选某些可以高效分类标签的特征。我使用了三种类型的方法，单变量法（Pearson系数），套索回归和SVM-RFE（递归特征消除），所以我从它们中获得了三个特征集。我使用python scikit-learn进行功能选择。然后我在考虑集成特征选择方法，因为特征的大小非常大。在

0热度

1回答

scikit中的特征选择学习多个变量和数千个特征

我正在尝试为逻辑回归分类器执行特征选择。最初有4个变量：姓名，地点，性别和标签=种族。这三个变量，即名称，会产生成千上万个“特征”，例如，名称“John Snow”会产生2个字母的子字符串，如'jo'，'oh'，'hn'。等等。特征集经过DictVectorization。我试图关注本教程（http://scikit-learn.org/stable/auto_examples/feature_

0热度

1回答

特征选择，聚类，降维算法之间的区别

有人能指出特征选择和聚类以及降维算法之间的区别吗？特征选择算法：可找到的主要变量，无论是其最能代表数据或最佳参数指示类的如：GBM /套索聚类帮助我们指明哪些变量聚类明确界定输出是不是这样的降维算法？不具有与维度降低算法相同的选择+聚类功能吗？

1热度

1回答

我应该在Vowpal Wabbit中为训练和测试指定相同的二次特征吗？

我在测试模式下运行我的VW模型（使用-t标志）与-q SE SZ DR，其中S, E, Z, D, R是我的名称空间。然后，我碰到的诊断打印输出以下警告：所以现在的问题是 WARNING: model file has set of {-q, --cubic, --interactions} settings stored, but they'll be OVERRIDEN by set of {

0热度

2回答

SVM机器学习：LibSVM中的特征表示

我正在使用Libsvm对书写文本进行分类。（性别分类）在理解如何创建具有多个功能的Libsvm培训数据时遇到问题。在LIBSVM 训练数据是建立这样的： label index1:value1 index2:value2 可以说，我想这些功能： Top_k话：按标签 Top_k双字母组k个最常用的词：k个最使用bigrams 所以例如，计数看起来像这样： Word count

1热度

1回答

功能选择

我想从一个表达集（微阵列）的20000个基因组中找到一个有用的特征选择方法来获得一个只有有用基因的模型。我尝试使用插入符号的RFE，但由于后向选择不支持n（预测符）> n（样本）的数据，所以我有StackOverflow的错误。任何人都可以提出一个合理的方法来做到这一点吗？或者这种RFE选择方法的解决方案？在此先感谢。