2013-12-12 57 views
1

我想使用矢量空间模型在SVM Light中构建SVM分类器。我有1000个文档和一个术语词典,我将用它来向量化每个文档。在1000个文档中,600个将用于我的训练集,而其余400个将被均分(每个200个)用于我的交叉验证集和我的测试集。我是否使用训练集中的相同idf来执行交叉验证?

现在假设我要训练我的SVM分类器,使用我的训练集600(使用tf-idf向量化)来生成分类模型。

当我将模型应用于交叉验证集时,是否会使用相同的idf(因为模型对应于我的训练集),还是需要基于交叉验证集计算新的idf?另外,如果我要将模型应用于单个文档,我将如何应用idf,因为此集合只包含1个文档?

回答

2

您可以在培训文档中创建idf,并在新的测试文档到来时使用它。对于每个测试文档,可以使用查询中每个术语的idf为查询创建单词列表。如果一个单词不包含在idf中,则查询将返回0.根据建立的idf获取分类。

+0

感谢您的澄清:) – Justin

+0

非常欢迎您! – lennon310

1

您应该使用与您的训练集相同的idf,因为您构建的分类符对应于该idf,因此您的结果将与新的idf不同。

相关问题