1
我在AWS上安装了一个集群,我已经在大量数据上安装了H2O,Sparkling Water和H2O Flow以进行机器学习。从Spark中读取JSON文件流入H2O
现在,这些文件来自流式作业的JSON格式。假设他们被放置在一个名为streamed-data
的文件夹中。
从星火,使用SparkContext,我可以很容易地阅读一气呵成创建RDD作为(这是Python,但并不重要):
sc = SparkContext()
sc.read.json('path/streamed-data')
这读取所有这些,造成了我RDD,非常方便。
现在,我想利用H2O的功能,因此我已经将它安装在群集上,以及其他提到的软件。
从H2O流向来看,我的问题是缺少JSON解析器,所以我想知道如果我可以将它们首先导入到H2O中,或者如果有任何事情可以解决问题。