压缩编码解码器在Azure Data Lake中的影响

很明显，有很好的文档证明，压缩zip文件的能力对Hadoop中作业的性能和并行化有很大影响。压缩编码解码器在Azure Data Lake中的影响

但Azure基于Hadoop构建，并且在Microsoft文档中找不到任何可以找到此影响的地方。

这不是ADL的问题吗？

是，例如，Gfix大文件现在可接受的方法，或者我会遇到同样的问题无法平行我的工作，由于压缩编解码器的选择？

谢谢

2017-06-22 Blootac

请注意，基于Hadoop的Azure Data Lake Analytics是而不是。

RojoSam是正确的，GZip是一种不好的压缩格式来并行化。

U-SQL自动识别.gz文件并解压缩它们。但是，压缩文件的大小有4GB的限制（因为我们无法分割和并行处理它），我们建议您使用几个100MB到1GB区域内的文件。

我们正在努力添加Parquet支持。如果您需要其他压缩格式，例如BZip：请在http://aka.ms/adlfeedback提交请求。

2017-06-23 18:01:51

太好了。非常感谢你。 ADLA是完全在家里建造的？ – Blootac

大部分。扩展引擎基于Microsoft Dryad，当前的资源管理器基于YARN（我们的团队是YARN的主要贡献者之一）。 –

从任意位置开始读取GZip文件是不可能的。有必要始终从头开始阅读。

然后，如果你有一个大的GZip（或其他不裂开的压缩格式），您无法读取/过程块它并行，结束处理所有的文件顺序在只有一台机器。

Hadoop（和其他大数据替代品）的主要思想是依赖于不同机器中的并行流程数据。一个大的GZip文件不符合这种方法。

有一些数据格式，它允许数据页使用gzip压缩并保持文件可分裂（每一页可以在不同的机器上加工，但每个GZip压缩块继续需要仅在一个机器处理）等镶木。

2017-06-22 20:18:37 RojoSam

回答