弗林克流AWS S3并行读取

我是新来弗林克多个文件，我的理解是继API调用弗林克流AWS S3并行读取

StreamExecutionEnvironment.getExecutionEnvironment().readFile(format, path)

将并行读取该文件给出S3存储路径。

我们存储S3的日志文件。要求是服务多个客户端请求从具有时间戳的不同文件夹读取。

对于我的使用情况，服务多个客户端的请求，我正在评估使用弗林克。因此，我希望Flink能够针对不同的AWS S3文件路径并行执行AWS S3读取。

是否有可能在单弗林克工作实现这一目标。有什么建议么？关于S3文件系统的支持

来源

2017-07-18 Abirami

文档可以发现here。

您可以从不同的目录读取和使用union()运营商的所有记录在不同的目录合并成一个流。

也可以通过使用类似（未经测试）来读取嵌套文件：

TextInputFormat format = new TextInputFormat(path); 
Configuration config = new Configuration(); 
config.setBoolean("recursive.file.enumeration", true); 
format.configure(this.config); 
env.readFile(format, path);

来源

2017-07-18 15:28:17 twalthr

弗林克流AWS S3并行读取

回答

相关问题