可以将受过训练的分类模型存储在Apache Spark中吗？

我要使用Apache Spark（或Hahop中的Mahout）在一堆培训文档上训练一个朴素贝叶斯分类器。我想在接收新文档进行分类时使用此模型。我想知道在训练时是否有可能存储模型，然后在另一个Spark作业中加载它？可以将受过训练的分类模型存储在Apache Spark中吗？

2015-07-09 H.Z.

在Mahout中的MapReduce支持NaiveBayes，该模型将被保存到由-o参数指定的目录，如果培训是通过CLI：

mahout trainnb 
    -i ${PATH_TO_TFIDF_VECTORS} 
    -o ${"path/to/model}/model 
    -li ${PATH_TO_MODEL}/labelindex 
    -ow 
    -c

，并通过检索：

NaiveBayesModel model = NaiveBayesModel.materialize(("/path/to/model"), getConf());

替代方案LY，使用亨利马乌-轮回的火花备份朴素贝叶斯，模型可以通过命令行训练，将类似地被输出到由-o参数指定的路径：

mahout spark-trainnb 
    -i ${PATH_TO_TFIDF_VECTORS} 
    -o ${/path/to/model} 
    -ow 
    -c

或模型可以从被训练

val model = SparkNaiveBayes.train(aggregatedObservations, labelIndex, false)

输出到（HD）FS由：经由应用内

model.dfsWrite("/path/to/model")

和检索经由：

val retrievedModel = NBModel.dfsRead("/path/to/model")

2015-07-10 14:48:28

model.save(sc, "myModelPath") 
val sameModel = NaiveBayesModel.load(sc, "myModelPath")

2015-07-09 23:23:30 dpeacock

回答