apache spark结构化流式传输

我使用火花结构化流式传输从s3位置读取传入数据，所以我在这里有两个问题。apache spark结构化流式传输

问题1）

我开始结构化数据流管道读取在S3中传入的文件。我提供传入的JSON数据的模式作为

柱A，列B，列C^

我执行一些转化和将数据写入在拼花格式的另一个S3位置，其具有下面的模式

山坳，山坳A“列B，列B”，列C，山坳C”

现在说了些日子我传入数据流的变化和，所以我需要我的传入模式改变为

案例1）col A，col B，col C，col D

案例2）柱A，列B

然后后，我做的改造，我需要在地板我的新转变模式作为

案例1）山坳，山坳A”，列B，列B '山口C，山口C'，山口d，山口d '

情况2）柱A，山口A'，列B，列B”

所以是这件事情可能考虑到流输出写入到实木复合地板文件

问题2）

Spark结构化流式使用checkpointLocation，那么有什么办法可以重新处理一些/所有的预处理数据。

2017-07-19 anaidu

问题1）看来，我们可以做这样的事情 spark.read.option（ “mergeSchema”， “真”）。实木复合地板（ “S3 ...”） – anaidu

回答您的问题2

只要删除检查点位置的目录&重新启动进程。

2017-09-23 04:40:25

是的，但是是有作为的方式重新处理一些特定的数据，删除checkPointing位置将重新处理一切 – anaidu

回答