2016-09-07 55 views
1

我在AWS上安装了一个集群,我已经在大量数据上安装了H2O,Sparkling Water和H2O Flow以进行机器学习。从Spark中读取JSON文件流入H2O

现在,这些文件来自流式作业的JSON格式。假设他们被放置在一个名为streamed-data的文件夹中。

从星火,使用SparkContext,我可以很容易地阅读一气呵成创建RDD作为(这是Python,但并不重要):

sc = SparkContext() 
sc.read.json('path/streamed-data') 

这读取所有这些,造成了我RDD,非常方便。

现在,我想利用H2O的功能,因此我已经将它安装在群集上,以及其他提到的软件。

从H2O流向来看,我的问题是缺少JSON解析器,所以我想知道如果我可以将它们首先导入到H2O中,或者如果有任何事情可以解决问题。

回答

1

运行苏打水时,您可以很容易地将RDD/DF/DS转换为H2O框架。像这样的东西(斯卡拉,巨蟒看起来相似)应该工作:

val dataDF = sc.read.json('path/streamed-data') 
val h2oContext = H2OContext.getOrCreate(sc) 
import h2oContext.implicits._ 
val h2oFrame = h2oContext.asH2OFrame(dataDF, "my-frame-name") 

从现在开始,你可以使用从代码级的框架和/或FlowUI。

你可以在这里找到更多的例子for Python和这里for Scala