我使用火花结构化流式传输从s3位置读取传入数据,所以我在这里有两个问题。apache spark结构化流式传输
问题1)
我开始结构化数据流管道读取在S3中传入的文件。我提供传入的JSON数据的模式作为
柱A,列B,列C^
我执行一些转化和将数据写入在拼花格式的另一个S3位置,其具有下面的模式
山坳,山坳A“列B,列B”,列C,山坳C”
现在说了些日子我传入数据流的变化和,所以我需要我的传入模式改变为
案例1)col A,col B,col C,col D
案例2)柱A,列B
然后后,我做的改造,我需要在地板我的新转变模式作为
案例1)山坳,山坳A”,列B,列B '山口C,山口C',山口d,山口d '
情况2)柱A,山口A',列B,列B”
所以是这件事情可能考虑到流输出写入到实木复合地板文件
问题2)
Spark结构化流式使用checkpointLocation,那么有什么办法可以重新处理一些/所有的预处理数据。
问题1) 看来,我们可以做这样的事情 spark.read.option( “mergeSchema”, “真”)。实木复合地板( “S3 ...”) – anaidu