很明显,有很好的文档证明,压缩zip文件的能力对Hadoop中作业的性能和并行化有很大影响。压缩编码解码器在Azure Data Lake中的影响
但Azure基于Hadoop构建,并且在Microsoft文档中找不到任何可以找到此影响的地方。
这不是ADL的问题吗?
是,例如,Gfix大文件现在可接受的方法,或者我会遇到同样的问题无法平行我的工作,由于压缩编解码器的选择?
谢谢
很明显,有很好的文档证明,压缩zip文件的能力对Hadoop中作业的性能和并行化有很大影响。压缩编码解码器在Azure Data Lake中的影响
但Azure基于Hadoop构建,并且在Microsoft文档中找不到任何可以找到此影响的地方。
这不是ADL的问题吗?
是,例如,Gfix大文件现在可接受的方法,或者我会遇到同样的问题无法平行我的工作,由于压缩编解码器的选择?
谢谢
请注意,基于Hadoop的Azure Data Lake Analytics是而不是。
RojoSam是正确的,GZip是一种不好的压缩格式来并行化。
U-SQL自动识别.gz文件并解压缩它们。但是,压缩文件的大小有4GB的限制(因为我们无法分割和并行处理它),我们建议您使用几个100MB到1GB区域内的文件。
我们正在努力添加Parquet支持。如果您需要其他压缩格式,例如BZip:请在http://aka.ms/adlfeedback提交请求。
从任意位置开始读取GZip文件是不可能的。有必要始终从头开始阅读。
然后,如果你有一个大的GZip(或其他不裂开的压缩格式),您无法读取/过程块它并行,结束处理所有的文件顺序在只有一台机器。
Hadoop(和其他大数据替代品)的主要思想是依赖于不同机器中的并行流程数据。一个大的GZip文件不符合这种方法。
有一些数据格式,它允许数据页使用gzip压缩并保持文件可分裂(每一页可以在不同的机器上加工,但每个GZip压缩块继续需要仅在一个机器处理)等镶木。
太好了。非常感谢你。 ADLA是完全在家里建造的? – Blootac
大部分。扩展引擎基于Microsoft Dryad,当前的资源管理器基于YARN(我们的团队是YARN的主要贡献者之一)。 –