2017-06-19 80 views
1

我们已经将csv(> 900 GB)数据文件存储在已定义Hive 0.14表的HDFS文件系统中。我们需要对数据执行少量分析查询以及对数据执行更新。基本上这个数据量是RDBMS类型的系统。任何人都可以提出RDBMS类型系统(更新,选择)的潜在选项是否是保持头脑表现的重要标准。用于大数据的RDBMS

+0

Hive支持更新和分析查询。你想要达到哪些你不能使用Hive的具体内容? –

+0

@piyushpankaj hive确实支持更新,但如果您考虑这么多的数据,将会非常昂贵。 – philantrovert

+0

这就是我们正面临的确切问题。我们希望尝试尽可能快地保持更新,因为可能有多个系统可能导出某些需要更新到Hive表中的数据的指标 –

回答

0

PostgreSQL是从EDL加载数据的好选择。您可以将热门数据放在那里执行一些快速查询。

+0

这看起来有点困难,因为我们试图加载该批次数据在每天的基础上。现在每天的批量数据量可能接近300GB +左右。把这些数据放入postgres本身就是一件耗时的工作。我们正在寻找一些关于大数据世界的RDBMS,这些大数据世界都是开源的 –