0
我正在编写一个Spark应用程序,将日志数据保存到目录/logroot
。Spark避免分区覆盖
我的代码是
myDF.mode('overwrite').partitionBy('date','site').save('logroot')
我想用overwrite
模式,以重新处理很多次,每周所有的日常数据。
我担心的是overwrite
会清除所有logroot
目录,而不仅仅是涉及的分区。
我该如何解决这个问题?
您可以使用追加模式并避免重写。但你可以更详细说明,你的要求是什么 – Ramzy
嗨,我已经尝试过追加模式,问题是,如果出于任何原因,我需要重新处理已存在数据的一天(日期+网站分区)数据总和而不是覆盖。 –
你可以请更详细一点。你想重新处理输出数据吗? – Ramzy