从Spark中读取JSON文件流入H2O

我在AWS上安装了一个集群，我已经在大量数据上安装了H2O，Sparkling Water和H2O Flow以进行机器学习。从Spark中读取JSON文件流入H2O

现在，这些文件来自流式作业的JSON格式。假设他们被放置在一个名为streamed-data的文件夹中。

从星火，使用SparkContext，我可以很容易地阅读一气呵成创建RDD作为（这是Python，但并不重要）：

sc = SparkContext() 
sc.read.json('path/streamed-data')

这读取所有这些，造成了我RDD，非常方便。

现在，我想利用H2O的功能，因此我已经将它安装在群集上，以及其他提到的软件。

从H2O流向来看，我的问题是缺少JSON解析器，所以我想知道如果我可以将它们首先导入到H2O中，或者如果有任何事情可以解决问题。

来源

2016-09-07 mar tin

运行苏打水时，您可以很容易地将RDD/DF/DS转换为H2O框架。像这样的东西（斯卡拉，巨蟒看起来相似）应该工作：

val dataDF = sc.read.json('path/streamed-data') 
val h2oContext = H2OContext.getOrCreate(sc) 
import h2oContext.implicits._ 
val h2oFrame = h2oContext.asH2OFrame(dataDF, "my-frame-name")

从现在开始，你可以使用从代码级的框架和/或FlowUI。

你可以在这里找到更多的例子for Python和这里for Scala。

来源

2016-09-07 15:58:10

从Spark中读取JSON文件流入H2O

回答

相关问题