1
我运行在具有几百万的记录的数据集groupBy()
并要保存生成的输出(pyspark GroupedData
对象),这样我可以在以后反序列化,并从该点恢复(最重要的是为运行汇总需要)。如何序列化pyspark GroupedData对象?
df.groupBy("geo_city")
<pyspark.sql.group.GroupedData at 0x10503c5d0>
我想避免GroupedData对象转换为DataFrames或RDDS以便将其保存到文本文件或镶木/阿夫罗格式(如转换操作是昂贵的)。有没有其他有效的方法将GroupedData
对象存储为某种二进制格式以便更快地读取/写入?可能在Spark中有一些相当于泡菜?