2
我们在将数据存储在HBase中时遇到了一个问题。我们采取了以下步骤:HBase表大小在一段时间后下降
- Spark应用程序正在使用hfiles作为结果(结果数据大小:180 G)处理Big csv文件(大小:20 G)。通过使用命令
- 创作表的:从创建hfiles
'TABLE_NAME', {'NAME'=>'cf', 'COMPRESSION'=>'SNAPPY'}
- 数据被表的装载后,用命令
hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles -Dhbase.mapreduce.bulkload.max.hfiles.perRegion.perFamily=1024 hdfs://ip:8020/path TABLE_NAME
右键bulkloaded尺寸180 G,在一段时间(昨天之后但它是在两天前的上午8点左右,上午8点左右)正在启动一个将数据压缩成14号大小的进程。
我的问题是这个过程的名称是什么?这是一个重大的压缩? Becouse我试图触发压实(major_compact和紧凑型)手动,但是这是从命令的输出开始的未压缩表:
hbase(main):001:0> major_compact 'TEST_TYMEK_CRM_ACTION_HISTORY'
0 row(s) in 1.5120 seconds