feature-selection

0热度

1回答

我正在使用Weka库进行特征选择问题解决方案。我已读出的数据，如下所示：所述的数据集是在ARFF格式 BufferedReader reader = new BufferedReader(new FileReader("D:\\Exp\\golf.arff")); Instances data = new Instances(reader); reader.close();

-1热度

1回答

具有少量特征的autoencoder中的隐藏节点的数量

我有一个具有2个特征和10000个样本的数据集。我想将这两个功能转换（集成）为一个功能，以供进一步分析。所以我想使用特征提取方法。由于两个特征之间的关系不是线性的，我想使用传统PCA以外的方法。由于样本数量远远大于特征的数量，我认为autoencoder是特征提取的好方法。但输入特征仅为2，那么自动编码器的形状将仅为2-1-2，这是一种线性提取。是否有可能设置隐藏节点超过输入的数量，并使堆栈自

1热度

1回答

放在一起sklearn管道+嵌套交叉验证

我试图找出如何建立一个工作流程sklearn.neighbors.KNeighborsRegressor包括：正常化功能特征选择（20的最佳子集数字特征，没有特定的总）交叉验证超参数K的范围为1〜20 交叉验证模型使用RMSE作为误差度量 scikit-learn中有很多不同的选项，我有点不知所措，试图决定我需要哪些类。而且sklearn.neighbors.KNeighborsRegr

-1热度

1回答

功能（属性）排名

0热度

1回答

Scikit-learn SelectFromModel - 实际获取潜在预测因子的特征重要性分数

我试图估计我手边的分类任务的特征重要性。对我来说重要的是获得代表每个功能重要性的具体数字，而不仅仅是“选择最重要的X功能”。明显的选择是使用基于树的方法提供很好的feature_importances_方法来获取每个要素的重要性。但是我对树型分类器的结果并不满意。我了解到SelectFromModel方法能够根据重要性分数消除不重要的特征，并成功地将其用于SVM或线性模型。我想知道，是否有任何

0热度

1回答

在管道中结合w2vec和特征选择

基于这篇文章：http://nadbordrozd.github.io/blog/2016/05/20/text-classification-with-word2vec/我试图在文本分类任务中实现带GloVe预训练矢量的gensim word2vec模型。不过，我想在我的文本数据中也做FeatureSelection。我在管道中尝试了多个序列，但是我得到了一个指向TfidfEmbeddingVe

-1热度

1回答

我们如何在json数据上做特征选择？

我有json格式的大数据集，我想从中提取重要的属性，它能捕捉最多的方差。我想提取这些属性来在数据集上构建一个搜索引擎，这些属性是散列键。这里要问的主要问题是在json数据上做功能选择。

0热度

1回答

如何在特征选择中定义变量名称

我尝试在特征选择中定义变量名称。我有这样 import pandas as pd df = pd.DataFrame ({'a' : [1, 0,1, 0,1, 0,1, 0,1, 0 ], 'b' : ['foo', 'bar','foo', 'bar','foo', 'bar','foo', 'bar','foo', 'bar' ] , 'c' : ['foo',

0热度

1回答

前10名特征rbf内核的SVC

我试图获得带RBF内核的支持向量机分类器前10名最具信息性（最好）的特征。由于我是编程初学者，我尝试了一些我在网上找到的代码。不幸的是，没有工作。我总是得到错误：ValueError: coef_ is only available when using a linear kernel。这是我测试的最后代码： scaler = StandardScaler(with_mean=False) e

0热度

1回答

在python中使用LinearSVC的功能选择

我有一项任务是为产品标题创建一个多级分类器，以将它们分类为11个类别。我正在使用scikit的LinearSVC进行分类。我首先通过删除停用词来处理产品标题，使用POS标签进行词形识别，并使用带有TFIDF向量的bigrams。我现在想用特征选择的chi2方法从这些方法中消除不重要的特征，然后进行训练。但是，如何将chi2用于我的模型。下面是代码： def identity(arg):