2017-07-18 89 views
1

我是新来弗林克多个文件,我的理解是继API调用弗林克流AWS S3并行读取

StreamExecutionEnvironment.getExecutionEnvironment().readFile(format, path) 

将并行读取该文件给出S3存储路径。

我们存储S3的日志文件。要求是服务多个客户端请求从具有时间戳的不同文件夹读取。

对于我的使用情况,服务多个客户端的请求,我正在评估使用弗林克。因此,我希望Flink能够针对不同的AWS S3文件路径并行执行AWS S3读取。

是否有可能在单弗林克工作实现这一目标。有什么建议么?关于S3文件系统的支持

回答

0

文档可以发现here

您可以从不同的目录读取和使用union()运营商的所有记录在不同的目录合并成一个流。

也可以通过使用类似(未经测试)来读取嵌套文件:

TextInputFormat format = new TextInputFormat(path); 
Configuration config = new Configuration(); 
config.setBoolean("recursive.file.enumeration", true); 
format.configure(this.config); 
env.readFile(format, path);