2
我想在PySpark中有效地将numpy数组从/到工作者机器(函数)读取到HDFS。我有两台机器A和B.A有主人和工人。 B有一名工人。对于例如我想实现如下的内容:如何从PySpark工作者保存numpy数组到HDFS或共享文件系统?
if __name__ == "__main__":
conf = SparkConf().setMaster("local").setAppName("Test")
sc = SparkContext(conf = conf)
sc.parallelize([0,1,2,3], 2).foreachPartition(func)
def func(iterator):
P = << LOAD from HDFS or Shared Memory as numpy array>>
for x in iterator:
P = P + x
<< SAVE P (numpy array) to HDFS/ shared file system >>
有什么可以为这个快速和有效的方法?