我正在迈出ML的第一步,特别是用于文本情感分析的分类器。我的方法是制作通常的80%训练数据集和20%的测试。有一个训练有素的模型什么是出现新特征时在生产环境中进行的最佳方式(初始数据集中不存在文本中的新词)?处理分类模型中的新功能
0
A
回答
0
在分类任务中,必须在列车时间看到所有的特征,并且以后不能将新特征添加到预测阶段。为了您的问题,您可以使用Stemming或Lemmatizing。或类似的东西LDA或Word2Vec有大量的文档他们训练
这一章可能是有用的:https://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html
0
是你所描述的通常被称为“出来的词汇”问题(OOV)出现在词测试集,但不在训练集中。传统的方法是用一个特殊的标记(例如“UNKNOWN”)表示每个OOV词,并且实际上在训练数据中包含这些词。在Jurafsky和Martin的“语音和语言处理”的Section 4.3中更全面地讨论了这种方法。
更现代的方法是使用Word2Vec。这是在神经网络中发现的真正的advanced topic。
相关问题
- 1. 在功能接受基本类型中处理der types类型
- 2. 理解阶类型功能
- 3. 部分功能的F#异常处理
- 4. 处理包装类的功能
- 5. Ajax能否成功()处理两种类型的返回?
- 6. 模式维基类型功能模式
- 7. 模板类类型特定功能
- 8. 在部分和空模型值中处理空模型
- 9. 预处理功能
- 10. RandomForestRegressor功能处理为类别?
- 11. 类型处理
- 12. 分配正确的类型来重新选择createSelector功能
- 13. 最新的hibernate(5)能处理数组类型吗?
- 14. 如何在另一个模型类中调用一个模型类的功能?
- 15. 水银分支模型任务功能
- 16. 对模型功能分页结果
- 17. 模板功能:基于类型名称
- 18. 功能领域odoo类型float,新api
- 19. WordPress分页不能处理自定义文章类型和分类术语
- 20. 处理Django模型
- 21. 处理中的间隔运行功能
- 22. 类型和功能
- 23. 预处理多值功能?
- 24. 批处理功能同步?
- 25. Python多处理功能
- 26. 处理功能键按
- 27. 功能处理在MATLAB
- 28. 如何在sklearn.svm.libsvm.fit()分类器中包含列表类型功能?
- 29. 创建新类型时如何处理多个对象类型
- 30. 如何处理可能拥有或借用的FFI未分类类型?