1
我使用带镶木地板的火花。 我希望能够缓存我们最常使用的列进行过滤,同时保留其他磁盘。 我运行类似:DataFrame的部分垂直缓存
myDataFrame.select("field1").cache
myDataFrame.select("field1").count
myDataFrame.select("field1").where($"field1">5).count
myDataFrame.select("field1", "field2").where($"field1">5).count
第四行不使用缓存。
任何简单的解决方案,可以帮助这里?
谢谢,实际上我的意思是我在那里写了(field1), ,因为parquet是一种列式格式,我希望获得缓存,只会对未被缓存的字段进行磁盘访问。 虽然连接是一个可能的解决方案,但在大多数情况下,这将是非常昂贵的。 – roee