feature-selection

    0热度

    1回答

    我之前在MATLAB中使用sequentialfs函数之前只使用大型矩阵作为参数。我有一个新升级的MATLAB,其中包含Table数据类型 - 非常方便。我试图重写一个脚本,该脚本使用表设置来执行顺序特征选择,但遇到了麻烦。 normfmat = ngmft(:,4:end-1); % ngmft is previously loaded data table y = gmft(:,2); %

    1热度

    4回答

    我试图从由PatientID列分组的Noshow列中获取连续计数。我使用的下面的代码非常接近我希望获得的结果。但是,使用sum函数将返回整个组的总和。我希望求和函数只求和当前行和只有其上面有'1'的行。基本上,我试图计算一个病人不遵守每行的预约时间,然后在他们确实显示时重置为0。似乎只需要对我的下面的代码进行一些调整。但是,我似乎无法在本网站的任何地方找到答案。 transform(df, Con

    1热度

    1回答

    我正在尝试使用PCA提取功能。现在我得到了来自StackExchange的MATLAB代码,如下所示,它选择PCA之后最相关的前100个功能。现在,当我执行代码时,我发现特征值已经在第一条语句中排序。为什么我们需要再次按降序排序? [eigenvectors, projected_data, eigenvalues] = princomp(proteingene); [foo, feature_

    1热度

    4回答

    我目前正在开发语音识别项目,并试图选择最有意义的功能。 大部分相关论文都建议使用零交叉率,F0和MFCC功能,因此我正在使用这些功能。 我的问题是,持续时间为00:03的训练样本有268个特征。考虑到我正在做一个多类分类项目,每个类训练包含50+个样本,包括所有MFCC特征可能会受到维度诅咒或“降低其他特征的重要性”项目的影响。 所以我的问题是,我应该包括所有MFCC功能,如果不是,你可以建议一个

    0热度

    3回答

    我有一个数据集建立一个classificator: dataset = pd.read_csv(sys.argv[1], decimal=",",delimiter=";", encoding='cp1251') X=dataset.ix[:, dataset.columns != 'class'] Y=dataset['class'] 我想只选择重要的功能,所以我做的: clf=svm.

    2热度

    1回答

    我试图用scikit学习下面的代码递归功能选择。 from sklearn import datasets, svm from sklearn.feature_selection import SelectKBest, f_classif from sklearn.feature_selection import RFE import numpy as np input_file_iri

    9热度

    4回答

    我想进行监督式学习。 直到现在我知道要做监督学习所有功能。 但是,我还想进行K最佳功能的实验。 我阅读了文档,发现Scikit学到了SelectKBest方法。 不幸的是,我不知道如何寻找那些最好的功能后,创建新的数据框: 假设我想用5个最佳特性进行实验: from sklearn.feature_selection import SelectKBest, f_classif select_k_

    0热度

    1回答

    我正在使用UCI ML乳腺癌数据集来构建使用SVM的分类器。我使用LIBSVM和它的fselect.py脚本来计算特征选择的f分数。我的数据集有8个功能,其评分如下: 5: 1.765716 2: 1.413180 1: 1.320096 6: 1.103449 8: 0.790712 3: 0.734230 7: 0.698571 4: 0.580819 这意味着第5个功能是最

    1热度

    3回答

    我是ML新手,我正在使用Spark ml构建预测系统。我读到,特征工程的一个主要部分就是在做所需的预测时发现每个特征的重要性。在我的问题中,我有三个分类特征和两个字符串特征。我使用OneHotEncoding技术来转换分类特征,并使用简单的HashingTF机制来转换字符串特征。然后,这些信息作为管线的各个阶段输入,包括ml NaiveBayes和VectorAssembler(将所有特征组装成一

    0热度

    2回答

    我想插入大尺寸的csv文件到Weka中进行特征选择。 csv文件大小约为2.3GB,它包含41行2000,002列。 第一行包含 (sample_id)(1〜200万)(类) 和从第二线 ID浮球浮子...类(Y/N) 然而当尝试将此文件插入weka,弹出错误消息: weka.core.coverters.CSVLoader未能加载'test.csv'。原因:错误 数值。阅读1000002,预计1