0

我正在迈出ML的第一步,特别是用于文本情感分析的分类器。我的方法是制作通常的80%训练数据集和20%的测试。有一个训练有素的模型什么是出现新特征时在生产环境中进行的最佳方式(初始数据集中不存在文本中的新词)?处理分类模型中的新功能

回答

0

是你所描述的通常被称为“出来的词汇”问题(OOV)出现在词测试集,但不在训练集中。传统的方法是用一个特殊的标记(例如“UNKNOWN”)表示每个OOV词,并且实际上在训练数据中包含这些词。在Jurafsky和Martin的“语音和语言处理”的Section 4.3中更全面地讨论了这种方法。

更现代的方法是使用Word2Vec。这是在神经网络中发现的真正的advanced topic