我要使用Apache Spark(或Hahop中的Mahout)在一堆培训文档上训练一个朴素贝叶斯分类器。我想在接收新文档进行分类时使用此模型。我想知道在训练时是否有可能存储模型,然后在另一个Spark作业中加载它?可以将受过训练的分类模型存储在Apache Spark中吗?
1
A
回答
1
在Mahout中的MapReduce支持NaiveBayes,该模型将被保存到由-o
参数指定的目录,如果培训是通过CLI:
mahout trainnb
-i ${PATH_TO_TFIDF_VECTORS}
-o ${"path/to/model}/model
-li ${PATH_TO_MODEL}/labelindex
-ow
-c
参见:http://mahout.apache.org/users/classification/bayesian.html
,并通过检索:
NaiveBayesModel model = NaiveBayesModel.materialize(("/path/to/model"), getConf());
替代方案LY,使用亨利马乌-轮回的火花备份朴素贝叶斯,模型可以通过命令行训练,将类似地被输出到由-o
参数指定的路径:
mahout spark-trainnb
-i ${PATH_TO_TFIDF_VECTORS}
-o ${/path/to/model}
-ow
-c
或模型可以从被训练
val model = SparkNaiveBayes.train(aggregatedObservations, labelIndex, false)
输出到(HD)FS由:经由应用内
model.dfsWrite("/path/to/model")
和检索经由:
val retrievedModel = NBModel.dfsRead("/path/to/model")
参见:http://mahout.apache.org/users/environment/classify-a-doc-from-the-shell.html
1
是,see the Spark mllib naives bayes documentation。
model.save(sc, "myModelPath")
val sameModel = NaiveBayesModel.load(sc, "myModelPath")
相关问题
- 1. 训练分类模型Opennlp
- 2. 如何在apache模型训练后对新的训练样例进行分类?
- 3. 我可以从Google Cloud ML Engine下载受过训练的模型吗?
- 4. 在训练模型Tensorflow MNIST分类
- 5. 在keras预训练模型中,我可以删除图层吗?
- 6. 保存Spark的朴素贝叶斯分类器训练有素的模型
- 7. 如何在Spark中“重新训练”模型(如果可能)
- 8. 在Android中使用受过训练的Scikit-learn svm分类器
- 9. 分布式Word2Vec模型训练使用Apache 2.0.0星火和mllib
- 10. 在新的DataFrame上使用受过训练的分类器
- 11. 如何通过gensim将训练集的分布保存在训练有素的LDA模型上?
- 12. Tensorflow:如何在训练中将模型保存在内存中
- 13. 如何存储经过训练的分类器?
- 14. 在Spark中加载训练有素的Word2Vec模型
- 15. 如何预测与受过训练的Tensorflow模型
- 16. 我可以用cpu训练初始v3模型吗?
- 17. 受过训练的机器学习模型太大
- 18. 在R中使用mxnet预训练的图像分类模型
- 19. NLP模型训练
- 20. 保存训练模型在Keras
- 21. 生成与受过训练的字符级LSTM模型
- 22. 分割训练数据以训练n个模型的最佳数量
- 23. TensorFlow:存储的训练模型在哪里以及如何访问?
- 24. Keras训练稀疏模型
- 25. Tensorflow:使用预训练以来模型
- 26. 错误训练im2txt模型
- 27. 可以在没有Spark安装的情况下训练和使用MLLib分类器吗?
- 28. Tensorflow:在C++中训练模型
- 29. 重新训练tensorflow模型
- 30. 如何训练ML模型?