cross-validation

18热度

2回答

我使用主题建模对文档进行聚类。我需要拿出最优的主题编号。所以，我决定用主题10,20，... 60进行10次交叉验证。我已经将我的语料库分成十个批次，并为一个保留集留出了一批。我已经用9个批次（共180个文件）运行了潜在的dirichlet分配（LDA），主题为10到60.现在，我必须计算复杂集合的困惑度或对数似然率。我从简历的讨论会中发现了this code。我真的不明白下面的几行代码。我有

0热度

1回答

如何在sklearn中使用支持向量机时实际使用验证集

在使用SVM时，我发现在原始数据集上执行三向拆分是一种很好的做法，，70/15/15分裂。这个分割将对应于训练的％70，测试的％15和被称为“验证”的％15。我很清楚为什么这是一个很好的做法，但我不确定实际执行此操作所需的细节。许多在线资源都讨论了这个过程的重要性，但我似乎无法找到一个明确的（或者至少是算法的）过程描述。例如，sklearn讨论它here，但在提供任何可靠工具之前停止。这里

1热度

1回答

在R中使用lm函数留下一个交叉验证

我有一个506行的数据集，我正在执行Leave-one-out交叉验证，一旦得到均方误差，我计算均方差的均值我发现错误。每次运行它都会改变。这是预期的吗？如果是这样，有人可以解释为什么每次运行它时都会改变它？为此留出一个简历，我第一次洗牌的行，df是数据帧 df <-df[sample.int(nrow(df)),] 然后，我分裂数据帧到506个的数据帧，并将其发送到LM（），并得到了MSE

9热度

2回答

glm（）模型的交叉验证

我正在尝试为之前在R中构建的一些glm模型做一个10倍交叉验证。我对boot包中的cv.glm()函数有点困惑，尽管我读过很多帮助文件。当我提供以下公式： library(boot) cv.glm(data, glmfit, K=10) 是否“数据”的说法在这里指的是整个数据集或仅对测试集？到目前为止，我所看到的例子提供了“数据”参数作为测试集，但这并没有什么意义，比如为什么在同一个测试集

1热度

1回答

来自libsvm的100％准确性

我正在使用libSVM（使用线性内核）训练和交叉验证（10倍）数据。数据包括1800 fMRI强度体素表示为一个单一的数据点。 svm-train的训练集文件中有大约88个数据点。的训练集，文件看起来如下： +1 1:0.9 2:-0.2 ... 1800:0.1 -1 1:0.6 2:0.9 ... 1800:-0.98 ... 我还要提到我使用的SVM-火车脚本（连同来到libSVM包）。

0热度

2回答

使用验证集早期停止在神经网络中

我想使用早期停止方法来避免过度拟合神经网络。我已经分了我的数据集60-20-20 60 - 培训 20 - 验证设置 20 - 测试设定我有一个疑问，而实现提前停止。我们使用训练集更新一个历元的权重。我们在使用训练集的网络中遇到了错误。我们需要计算验证集的错误。我们应该平均每个验证实例的所有错误吗？ E.g可以说我有200个验证实例。由于我不更新权重，我将计算每个实例的错误。那么我们应该对

2热度

1回答

为什么使用交叉验证？

我现在正在参加几个Kaggle机器学习比赛，我只是有一个快速问题。为什么我们使用交叉验证来评估我们算法在这些比赛中的有效性？当然，在这些比赛中，您在公共排行榜中的得分，您的算法在哪里与实际实时数据进行测试，可以让您更准确地表示算法的有效性？

1热度

2回答

我是否使用训练集中的相同idf来执行交叉验证？

我想使用矢量空间模型在SVM Light中构建SVM分类器。我有1000个文档和一个术语词典，我将用它来向量化每个文档。在1000个文档中，600个将用于我的训练集，而其余400个将被均分（每个200个）用于我的交叉验证集和我的测试集。现在假设我要训练我的SVM分类器，使用我的训练集600（使用tf-idf向量化）来生成分类模型。当我将模型应用于交叉验证集时，是否会使用相同的idf（因为模型对

2热度

3回答

为什么我们需要在multiSVM方法中进行图像分类的交叉验证？

我是图像分类新手，目前从事SVM（支持向量机）方法对多组图像进行分类的功能，我的算法每次随机选择训练和测试数据，性能每次都会有所不同。有人建议做交叉验证，我不明白为什么我们需要交叉验证，这是什么主要目的？。我的实际数据集包括训练矩阵大小28×40000和测试矩阵大小17×40000。如何通过这个数据集进行交叉验证可以帮助我。提前致谢。

2热度

1回答

使用神经网络与插入符号并调整参数

因此，我已经阅读了一篇文章，该文章使用神经网络对与我目前使用的数据集类似的数据集进行建模。我有160个描述符变量，我想对160个案例进行建模（回归建模）。我阅读的论文使用了以下参数： - 对于每个分组，为10个单独的列车测试折叠中的每一个开发一个模型。使用具有33个输入神经元和16个隐藏神经元的三层向后传播网络与在线权重更新，0.25学习率和0.9动量。对于每次折叠，从总共50个不同的随机初始加权