2017-07-19 95 views
0

我使用火花结构化流式传输从s3位置读取传入数据,所以我在这里有两个问题。apache spark结构化流式传输

问题1)

我开始结构化数据流管道读取在S3中传入的文件。我提供传入的JSON数据的模式作为

柱A,列B,列C^

我执行一些转化和将数据写入在拼花格式的另一个S3位置,其具有下面的模式

山坳,山坳A“列B,列B”,列C,山坳C”

现在说了些日子我传入数据流的变化和,所以我需要我的传入模式改变为

案例1)col A,col B,col C,col D

案例2)柱A,列B

然后后,我做的改造,我需要在地板我的新转变模式作为

案例1)山坳,山坳A”,列B,列B '山口C,山口C',山口d,山口d '

情况2)柱A,山口A',列B,列B”

所以是这件事情可能考虑到流输出写入到实木复合地板文件

问题2)

Spark结构化流式使用checkpointLocation,那么有什么办法可以重新处理一些/所有的预处理数据。

+0

问题1) 看来,我们可以做这样的事情 spark.read.option( “mergeSchema”, “真”)。实木复合地板( “S3 ...”) – anaidu

回答

0

回答您的问题2

只要删除检查点位置的目录&重新启动进程。

+0

是的,但是是有作为的方式重新处理一些特定的数据, 删除checkPointing位置将重新处理一切 – anaidu

相关问题