2017-08-01 90 views
0

我们需要获取Ignite Queue的内容,该Ignite Queue将群集中的大型数据集保存为Spark数据框。如何将Ignite队列转换为Spark Dataframe?

目前我们做下图。

var array: Array[Row] = Array() 
array = igniteQueue.toArray(array) 

但这带来的igniteQueue到单个边缘节点的所有分发的内容作为使溢出异常的阵列。

有没有办法将spark数据作为Spark Dataframe来获取?以便数据将分发

在此先感谢!

回答

1

检查IgniteContext & IgniteRDD documentation - 这是Spark-Ignite集成的主要入口点。

由于IgniteRDD是Ignite缓存的实时视图,因此不需要从Ignite显式地将数据加载到Spark应用程序。在创建IgniteRDD实例后,所有RDD方法都可立即使用。

例如下面的Scala代码会发现包含单词的所有值“点燃”:

val cache = igniteContext.fromCache("partitioned") 
val result = cache.filter(_._2.contains("Ignite")).collect() 

此外,还要检查该Java example

相关问题