2017-06-13 111 views

回答

0

这取决于您的语料库和测试示例的结构和预处理方式。

您可能正在使用预先训练的单词向量将文本转换为数字特征。首先,文本示例被矢量化以训练分类器。后来,其他(测试/生产)文本示例将被相同的矢量化,并呈现给分类器以得到其判断。

因此,您需要使用与培训期间使用的相同的文本到矢量的测试/生产文本示例过程。也许你已经在单独的早期批量步骤中完成了这一步,在这种情况下,您已经具有分类器使用的向量形式的特征。但是通常你的分类器管道本身会采用原始​​文本并对其进行矢量化 - 在这种情况下,它需要在测试时间提供与训练期间可用的相同的预先训练(词) - >(矢量)映射。