Spark SQL - gzip vs snappy与lzo压缩格式的区别

我正在尝试使用Spark SQL来编写parquet文件。Spark SQL - gzip vs snappy与lzo压缩格式的区别

默认情况下，Spark SQL支持gzip，但它也支持其他压缩格式，如snappy和lzo。

这些压缩格式与哪一个最适合使用Hive加载有什么区别。

2016-03-04 Shankar

似乎默认的Spark采用 “瞬间”，而不是 “压缩”。至少这就是我在s3上看到的：使用字符串“snappy”创建的文件作为其名称的一部分。 – bashan

@bashan：spark的最新版本将默认格式更改为snappy，直到1.6.1我可以看到默认parquet压缩格式为gzip。 – Shankar

只需在您的数据上尝试一下。

lzo和snappy是快速压缩机和速度非常快的解压缩器，但压缩比较少，与gzip相比压缩更好，但速度稍慢。

2016-03-04 07:44:40

如果您可以处理更高的磁盘使用以获得更高的性能优势（较低的CPU +可拆分表），请使用Snappy。

星火时默认情况下，从GZIP切换到活泼的，这是一个道理：

根据我们的测试，gzip的减压是非常缓慢（< 100MB/S），进行查询减压约束。 Snappy可以在单个内核上以〜500MB/s的速度解压缩到。

斯纳皮：

GZIP：

2017-05-30 03:18:22 Garren

回答