cross-validation

    1热度

    2回答

    从numpy的数组中删除行时其比n次重复以下 原因: 我有一定的数据集是1 GB在尺寸方面。 它有29.118.021个样本和108.390个类别。 但是,有些类只有1个样本。或3个样品,等等... 问题: 我想从所呈现的numpy的数组中删除该行/类/重复小于N次。失败 train_x, train_y, test_x, test_id = loader.load() n_samples =

    0热度

    1回答

    有人可以给我举例来说明在libsvm的多类SVM分类中,platt缩放如何与k-fold交叉验证一起使用? 我将整个数据集分为两部分:培训和测试。对于交叉验证,我正在划分训练数据,以便1个分区用于测试,其余部分用于训练多类SVM分类器。

    0热度

    1回答

    我是ML的初学者。 我想用600张图片(300 pos和300 neg)在Matlab中训练线性SVM;然后,我将训练好的模型应用于我的400张测试图像。如果我将线性SVM的成本设置为[0,1; 1,0],结果成功率约为65%,而交叉验证分类错误约为0.28,那么我尝试了各种成本值,并发现[0,1; x,0],x越高,分类错误越低。然而,令我困惑的是,虽然分类错误持续下降,但成功率也急剧下降。以下

    2热度

    1回答

    我使用Python 2.7和scikit-learn来做一些机器学习。我正在使用gridsearch来确定我的数据集和随机森林分类器的最佳超参数。我使用ROC曲线下的留一交叉验证和面积作为评估每个超参数集的度量。我的代码运行,但我有点困惑clf.grid_scores_的输出。根据我的理解,应该在所有数据折叠中对每组超参数进行评估,以查看使用在所有其他折叠上训练过的模型预测剩余折叠的效果。这会给你

    0热度

    1回答

    我使用脱字号查找&比较多个模型的预测。我首先将我的数据划分为5个交叉验证折叠,然后在5个训练数据集中的每一个中使用10倍CV以选择最优模型参数。上的小的(N = 400)测试数据集 示例代码用于单个glmnet模型: # Load data & factor admit variable. > mydata <- read.csv("http://www.ats.ucla.edu/stat/da

    0热度

    1回答

    我的数据有一个名为pid的列,并且不应在列车测试拆分之间泄漏具有相同pid的记录。我具有2层层叠模型 - 内部层通过交VAL-预测火车上的数据 我然后建立在原始列车数据的外部模型构建一个内部预测矢量+内部预测矢量 我然后在测试数据 该过程应重复X5评估性能。 我能想到的最佳方式是在外部图层中将pid % 25和pid % 5在内部图层中分开。 该代码出来很麻烦,不是pythonic。有没有更好的方

    1热度

    1回答

    我使用Spark MLLib在LabeledPoints的RDD上进行SVM分类。 我想交叉验证它。哪种做法最好? 有没有人有一个示例代码?我发现CrossValidator类依赖于DataFrame。 我的目标是获得F分数。

    0热度

    1回答

    我使用cv.glmnet()进行交叉验证,在默认情况下10-fold library(Matrix) library(tm) library(glmnet) library(e1071) library(SparseM) library(ggplot2) trainingData <- read.csv("train.csv", stringsAsFactors=FALSE,sep=

    0热度

    1回答

    如何在caret中的createFolds交叉验证函数中为我的分析数据集创建一个变量fold? 例如使用下面的高校招生数据集: # Load data. mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") folds <- createFolds(mydata$admit, k=5) # Create var

    1热度

    1回答

    我有一个巨大的数据集,我对R很新,所以我能想到的自己实现100倍CV的唯一方法是通过许多for和如果这对我的庞大数据集来说效率极低,甚至可能需要几个小时才能编译。我开始寻找能够做到这一点的软件包,并且在stackoverflow上发现了很多与CV有关的主题,并且我一直在尝试使用我发现的那些主题,但是他们都没有为我工作,我想知道我在做什么错误这里。 例如,从DAAG包验证码: cv.lm(data=