我是否使用训练集中的相同idf来执行交叉验证？

我想使用矢量空间模型在SVM Light中构建SVM分类器。我有1000个文档和一个术语词典，我将用它来向量化每个文档。在1000个文档中，600个将用于我的训练集，而其余400个将被均分（每个200个）用于我的交叉验证集和我的测试集。我是否使用训练集中的相同idf来执行交叉验证？

现在假设我要训练我的SVM分类器，使用我的训练集600（使用tf-idf向量化）来生成分类模型。

当我将模型应用于交叉验证集时，是否会使用相同的idf（因为模型对应于我的训练集），还是需要基于交叉验证集计算新的idf？另外，如果我要将模型应用于单个文档，我将如何应用idf，因为此集合只包含1个文档？

2013-12-12 Justin

您可以在培训文档中创建idf，并在新的测试文档到来时使用它。对于每个测试文档，可以使用查询中每个术语的idf为查询创建单词列表。如果一个单词不包含在idf中，则查询将返回0.根据建立的idf获取分类。

2013-12-12 16:38:09 lennon310

感谢您的澄清:) – Justin

非常欢迎您！ – lennon310

您应该使用与您的训练集相同的idf，因为您构建的分类符对应于该idf，因此您的结果将与新的idf不同。

2013-12-12 16:04:55 aplassard

回答