feature-selection

    0热度

    1回答

    我想选择可用的最佳功能子集,以区分两个要加入到我构建的统计框架中的类,其中功能不是独立的。 看过机器学习中的功能选择方法后,它似乎分为三个不同的类别:过滤器,包装器和嵌入式方法。过滤方法可以是:单变量或多变量。使用Filter(多变量)或包装器方法确实有意义,因为两个 - 据我了解 - 寻找最佳子集,但是,因为我没有使用分类器,所以如何使用它? 是否有意义应用这样的方法(例如递归功能 消除)到DT

    0热度

    1回答

    我正在使用python 3.5与tensorflow 0.11。 我有一个包含大量特征(> 5000)和相对较少数量的样本(< 200)的数据集。我正在使用wrapper skflow函数DNNClassifier进行深度学习。 它似乎工作适用于分类任务,但我想从大量的功能中找到一些重要功能。 在内部,DNNClassifier似乎执行特征选择(或提取功能 )。有没有办法用tensorflow执行

    0热度

    1回答

    我正尝试使用rfeControl和rfe进行简单的使用svm的功能选择任务。输入文件很小,有20个特征,414个样本。输入可以在这里找到[https://www.dropbox.com/sh/hj91gd06dbbyi1o/AABTHPuP4kI85onSqBiGH_ISa?dl=0]。 忽略警告,我不明白下面的错误是,因为我明白当衡量指标== RMSE和我时,最大化的价值,但是,具有指标==准确

    4热度

    1回答

    我试图从300*299培训矩阵中学习相关的功能,将它作为我的测试数据并应用sequentialfs。我用下面的代码: >> Md1=fitcdiscr(xtrain,ytrain); >> func = @(xtrain, ytrain, xtest, ytest) sum(ytest ~= predict(Md1,xtest)); >> learnt = sequentialfs(func,

    0热度

    1回答

    我正在使用scikit-learn进行问题分类。我有这样的代码: print(features[0], '\n') vectorizer = TfidfVectorizer(sublinear_tf=True, max_df=0.5, stop_words='english') features = vectorizer.fit_transform(features)

    0热度

    1回答

    您好,我有经过培训和测试的数据。我正在尝试使用sklearn的功能相关性Seelct K Best来选择相关功能并在之后绘制条形图。但是我得到这个错误: ValueError: could not convert string to float: B 但我开始觉得我有在我的数据集列这样看这可能是问题: CancellationCode: A B C D 如果此列是导致问题我该如何解

    0热度

    1回答

    我正在观看这个着名的Intro to Stat Learning课程中的video关于在特征选择中进行交叉验证的内容。 教授们说,在进行任何模型拟合和特征选择之前,我们应该形成褶皱。他们还表示,在每一次拆分中,我们最终都会得到一组不同的“最佳预测指标”。我的问题是,如果是这种情况,我们如何确定未来使用的总体最佳预测指标。换句话说,如果我有一组新的数据,我怎么知道我应该使用哪些预测指标?

    1热度

    4回答

    假设我有以下data: 'aaa' 'a' 'aaron' 'abcde' 'azz' x1 ... ... ... ... ... x2 ... ... ... ... ... x3 ... ... ... ... ... 鉴于英语单词一个预先定义的列表中,我该如何使用which(.. %in% ..)运营商获得

    0热度

    1回答

    我已将Boruta应用于我的数据集,以确定特征对于预测变量的重要性。然而,它无法确定几个功能的重要性。他们被证明是暂时的。 Python中是否有任何TentativeRoughFix函数? R语言中存在TentativeRoughFix函数。如果有这样的功能,任何人都可以引导我走向它。或者有关如何改变python中“暂定”到“重要”或“不重要”的变量的重要性的任何建议将非常感谢。

    -2热度

    1回答

    对文本文档的特征空间进行建模非常容易。例如,我可以将文本中的每个单词(训练数据)作为特征。 如果一个特定的词(例如“狗”)在(分类的)训练例子(例如被分类为垃圾邮件)遇到多次,那么我可以用这个词来分类新的数据。 如何模拟我的功能,如果它们不仅仅是单词? 在我的具体情况下,我有像名字,年龄和家庭大小的功能。 我不认为这是在我的特征向量中为每个可能的年龄创建条目的正确方法。 如果我假设人类不晚于100