2017-11-10 236 views
0

想象一下,你有一个历史数据,每天有数百万行的数据被添加到它。有必要每天处理整个数据并更新变量。您如何使用大数据平台解决这个问题?每天处理10行B数据以创建变量(计算列)的最佳方法是什么?

如果需要,欢迎提供更多细节。

+0

你有什么“大数据平台”? HDFS将高兴地存储您的数据,并且Spark将很高兴地处理它。 –

+0

我正在考虑将Hortonworks作为大数据平台。但挑战在于我需要每天对整个数据集进行聚合处理。 –

+0

为什么这是一个挑战?设置一个日常流程来做你想做的事情。 Hortonworks为此提供Oozie –

回答

1

尽量不要重新处理整个10B行...我不知道你在大数据集中究竟找到了什么,但是很可能有一个统计模型可以保存摘要信息,只是重新处理增量反对。

cricket_007是正确的,但HDFS和Spark可能是您首选的工具。

+0

它更像是拥有十亿行的原始数据,业务需求是为了建模每天对数据执行汇总过程。 –

相关问题