2017-06-22 94 views
0

很明显,有很好的文档证明,压缩zip文件的能力对Hadoop中作业的性能和并行化有很大影响。压缩编码解码器在Azure Data Lake中的影响

但Azure基于Hadoop构建,并且在Microsoft文档中找不到任何可以找到此影响的地方。

这不是ADL的问题吗?

是,例如,Gfix大文件现在可接受的方法,或者我会遇到同样的问题无法平行我的工作,由于压缩编解码器的选择?

谢谢

回答

1

请注意,基于Hadoop的Azure Data Lake Analytics是而不是

RojoSam是正确的,GZip是一种不好的压缩格式来并行化。

U-SQL自动识别.gz文件并解压缩它们。但是,压缩文件的大小有4GB的限制(因为我们无法分割和并行处理它),我们建议您使用几个100MB到1GB区域内的文件。

我们正在努力添加Parquet支持。如果您需要其他压缩格式,例如BZip:请在http://aka.ms/adlfeedback提交请求。

+0

太好了。非常感谢你。 ADLA是完全在家里建造的? – Blootac

+0

大部分。扩展引擎基于Microsoft Dryad,当前的资源管理器基于YARN(我们的团队是YARN的主要贡献者之一)。 –

1

从任意位置开始读取GZip文件是不可能的。有必要始终从头开始阅读。

然后,如果你有一个大的GZip(或其他不裂开的压缩格式),您无法读取/过程块它并行,结束处理所有的文件顺序在只有一台机器。

Hadoop(和其他大数据替代品)的主要思想是依赖于不同机器中的并行流程数据。一个大的GZip文件不符合这种方法。

有一些数据格式,它允许数据页使用gzip压缩并保持文件可分裂(每一页可以在不同的机器上加工,但每个GZip压缩块继续需要仅在一个机器处理)等镶木。