feature-selection

    0热度

    1回答

    我正在使用Weka库进行特征选择问题解决方案。我已读出的数据,如下所示:所述的数据集是在ARFF格式 BufferedReader reader = new BufferedReader(new FileReader("D:\\Exp\\golf.arff")); Instances data = new Instances(reader); reader.close();

    -1热度

    1回答

    我有一个具有2个特征和10000个样本的数据集。我想将这两个功能转换(集成)为一个功能,以供进一步分析。所以我想使用特征提取方法。由于两个特征之间的关系不是线性的,我想使用传统PCA以外的方法。 由于样本数量远远大于特征的数量,我认为autoencoder是特征提取的好方法。但输入特征仅为2,那么自动编码器的形状将仅为2-1-2,这是一种线性提取。 是否有可能设置隐藏节点超过输入的数量,并使堆栈自

    1热度

    1回答

    我试图找出如何建立一个工作流程sklearn.neighbors.KNeighborsRegressor包括: 正常化功能 特征选择(20的最佳子集数字特征,没有特定的总) 交叉验证超参数K的范围为1〜20 交叉验证模型 使用RMSE作为误差度量 scikit-learn中有很多不同的选项,我有点不知所措,试图决定我需要哪些类。 而且sklearn.neighbors.KNeighborsRegr

    -1热度

    1回答

    我有一个包含项目和功能(属性)的数据集。每个项目都有一些功能。 功能总数〜400功能。 我想根据它们的重要性对功能进行排名。我不在寻找分类,我正在寻找功能排名。 我将item-feature转换为像fowllowing这样的二进制矩阵,其中1表示此特性存在于此项中,否则为0。 itemID | feature1 | feature2 | feature3 | feature4 .... 1 | 0

    0热度

    1回答

    我试图估计我手边的分类任务的特征重要性。对我来说重要的是获得代表每个功能重要性的具体数字,而不仅仅是“选择最重要的X功能”。 明显的选择是使用基于树的方法提供很好的feature_importances_方法来获取每个要素的重要性。但是我对树型分类器的结果并不满意。我了解到SelectFromModel方法能够根据重要性分数消除不重要的特征,并成功地将其用于SVM或线性模型。 我想知道,是否有任何

    0热度

    1回答

    基于这篇文章:http://nadbordrozd.github.io/blog/2016/05/20/text-classification-with-word2vec/我试图在文本分类任务中实现带GloVe预训练矢量的gensim word2vec模型。不过,我想在我的文本数据中也做FeatureSelection。我在管道中尝试了多个序列,但是我得到了一个指向TfidfEmbeddingVe

    -1热度

    1回答

    我有json格式的大数据集,我想从中提取重要的属性,它能捕捉最多的方差。我想提取这些属性来在数据集上构建一个搜索引擎,这些属性是散列键。 这里要问的主要问题是在json数据上做功能选择。

    0热度

    1回答

    我尝试在特征选择中定义变量名称。我有这样 import pandas as pd df = pd.DataFrame ({'a' : [1, 0,1, 0,1, 0,1, 0,1, 0 ], 'b' : ['foo', 'bar','foo', 'bar','foo', 'bar','foo', 'bar','foo', 'bar' ] , 'c' : ['foo',

    0热度

    1回答

    我试图获得带RBF内核的支持向量机分类器前10名最具信息性(最好)的特征。由于我是编程初学者,我尝试了一些我在网上找到的代码。不幸的是,没有工作。我总是得到错误:ValueError: coef_ is only available when using a linear kernel。 这是我测试的最后代码: scaler = StandardScaler(with_mean=False) e

    0热度

    1回答

    我有一项任务是为产品标题创建一个多级分类器,以将它们分类为11个类别。我正在使用scikit的LinearSVC进行分类。我首先通过删除停用词来处理产品标题,使用POS标签进行词形识别,并使用带有TFIDF向量的bigrams。 我现在想用特征选择的chi2方法从这些方法中消除不重要的特征,然后进行训练。但是,如何将chi2用于我的模型。下面是代码: def identity(arg):