0
我想用Apache Flink一个接一个地批处理两个文件。在Apache Flink中连续处理两个数据源
对于一个具体的例子:假设我想给每一行分配一个索引,这样来自第二个文件的行跟随第一行。相反,这样做的,下面的代码行交错的两个文件:
val env = ExecutionEnvironment.getExecutionEnvironment
val text1 = env.readTextFile("/path/to/file1")
val text2 = env.readTextFile("/path/to/file2")
val union = text1.union(text2).flatMap { ... }
我想,以确保所有的text1
通过flatMap
操作者首先发送,然后所有的text2
。推荐的方式是什么?
在此先感谢您的帮助。
我想他想使用'DataSet' API。因此,这意味着实现一个自定义的'FileInputFormat'。 –
谢谢直到。我改编了我的答案。 –
感谢您的回答。我真正想要做的是比文件示例更复杂 - 我想处理一个历史流,然后是实时流,以保持状态和顺序。 听起来好像没有简单的方法来做到这一点。 –