PySpark和栅格（GeoTiff）数据

我正在尝试使用Spark（PySpark）来对存储在多波段GeoTiffs中的数据运行分析。我还是一个Spark新手。PySpark和栅格（GeoTiff）数据

设置：

的geotiffs本身足够小，在纯Python运行 - 特别是我使用GDAL读取数据。然后我创建数据框并进行分析。

但是分析需要一段时间。而且，经常性地，我将有数百个geotiffs进行分析 - 输入PySpark。

问题：

我写的代码，让我来运行本地伪群集上的分析。但是，由于存储在主节点上的数据无法在工作节点本地读取，因此它会因适当的群集而失败。

HDFS应该来拯救，但是sc.textFile(..)返回原始未处理的geotiff内容，这不是很有用。

我可以预处理数据以将geotiffs转换为csv，但额外的开销可能使它不值得。

这两种方案我希望能找到人

问题：

谢谢！

2016-07-14 brook

如果你想读取和处理整个文件的最简单的方法是结合binaryFiles和io模块：

from io import BytesIO 

(sc 
    .binaryFiles(path) 
    .values() 
    .map(BytesIO) 
    .map(some_function_which_expects_opened_binary_file))

关于你的剩余查询：

2016-07-14 17:43:14 zero323

回答