如果我连接到一个Spark集群,一些数据复制到它,并断开,...如何使用sparklyr将数据存储在Spark群集中?
library(dplyr)
library(sparklyr)
sc <- spark_connect("local")
copy_to(sc, iris)
src_tbls(sc)
## [1] "iris"
spark_disconnect(sc)
那么下一次我连接到星火,该数据是不存在的。
sc <- spark_connect("local")
src_tbls(sc)
## character(0)
spark_disconnect(sc)
这与使用数据库的情况不同,无论连接多少次,数据就在那里。
如何在连接之间持续保存Spark集群中的数据?
我以为sdf_persist()
可能是我想要的,但它似乎没有。
这是因为数据不会通过不同的火花会议,这是发生了什么,如果你坚持断开比再次重新连接。 – mtoto
@mtoto谢谢。所以当你断开连接时,没有办法让会话保持活动状态? –
你可以尝试'sdf_persist(storage.level =“DISK_ONLY”)'?我不确定这是否会奏效。我从来没有试过用火花诚实 – eliasah