2017-06-13 66 views
0

我的数据在我的sparkdataframe(df)中有24个特征,第25列是我的目标变量。我想在此dataset上安装我的​​型号,其输入格式为org.nd4j.linalg.api.ndarray.INDArray, org.nd4j.linalg.dataset.Datasetorg.nd4j.linalg.dataset.api.iterator.DataSetIterator。如何将我的dataframe转换为所需的类型?输入火花数据帧到DeepLearning4J模型

我也尝试使用管道方法直接向模型输入火花数据帧。但dl4j-spark-ml的sbt依赖不起作用。我的build.sbt文件是:

scalaVersion := "2.11.8" 

libraryDependencies += "org.deeplearning4j" %% "dl4j-spark-ml" % "0.8.0_spark_2-SNAPSHOT" 

libraryDependencies += "org.deeplearning4j" % "deeplearning4j-core" % "0.8.0" 

libraryDependencies += "org.nd4j" % "nd4j" % "0.8.0" 

libraryDependencies += "org.nd4j" % "nd4j-native-platform" % "0.8.0" 

libraryDependencies += "org.nd4j" % "nd4j-backends" % "0.8.0" 

libraryDependencies += "org.apache.spark" %% "spark-core" % "2.0.1" 

libraryDependencies += "org.apache.spark" %% "spark-sql" % "2.0.1" 

有人可以从这里引导我吗?提前致谢。

回答

0

您可以使用已读取spark.ml集成的快照。 如果你想使用快照,添加OSS Sonatype的库: https://github.com/deeplearning4j/dl4j-examples/blob/master/dl4j-examples/pom.xml#L16 在写这篇文章时的版本是: 0.8.1-SNAPSHOT

请核实最新版本的例子回购虽: https://github.com/deeplearning4j/dl4j-examples/blob/master/pom.xml#L21

你不能混用dl4j的版本。您尝试使用的版本是非常过期(超过一年)。请升级到最新版本。

新spark.ml整合的例子可以在这里找到: https://github.com/deeplearning4j/deeplearning4j/tree/master/deeplearning4j-scaleout/spark/dl4j-spark-ml/src/test/java/org/deeplearning4j/spark/ml/impl

确保添加适当的依赖,这是典型的像 org.deeplearning4j:dl4j火花毫升_ $ {您的SCALA BINARY VERSION}:0.8.1_spark _ $ {你的火花版本(1或2)-SNAPSHOT

+0

我试过使用'“org.deeplearning4j”%%“dl4j-spark-ml”%“0.8.0_spark_2-SNAPSHOT” 。但它仍然没有工作。我编辑完整的build.sbt文件的问题。请检查一次。 – Ishan

+0

我说0.8。* 1 *让我更明确: https://oss.sonatype.org/内容/重positories/snapshots/org/deeplearning4j/dl4j-spark-ml_2.11/0.8.1_spark_2-SNAPSHOT /它绝对存在。你不应该遇到任何问题。 ^^^ –

+0

我不得不在“https://oss.sonatype.org/content/repositories/snapshots/”使用'resolvers + =“scala-tools.org”来使它工作。谢谢你告诉我这件事。但我想要的是使用 - org.deeplearning4j.spark.ml.classification.NeuralNetworkClassification,但似乎这个类不可用。你有什么想法吗?我想要的只是将我的火花数据框输入到dl4j模型中。 – Ishan