2017-07-18 45 views
0

我们将每天扫描我们的aerospike并从扫描结果中获得一些结果。 现在我们正在考虑将扫描更改为map-reduce作业。但是我发现有些东西可能会使这次尝试失败。我还没有找到任何简单的方法将扫描作业分成多个子任务。例如,我在一个aerospike集群中有8个节点,我可以想象,可以分配映射器的数据集的唯一模式是分别使用8个映射器扫描8个节点。我们在一个节点中有4组节点,当然我可以使用更多映射器扫描每组节点,但这会导致每个映射器的数据集不平衡。如何将aerospike扫描作业更改为map-reduce模式?

那么有什么办法让我使用多个进程扫描一个节点中的一个节点?

+1

您是否在谈论如何将Aerospike与Hadoop连接?或者你是否总体谈论不同的扫描策略,将部分数据发送到不同的应用程序节点? –

回答

0

如果您通过阅读记录来汇总某些数据,则可能需要考虑Stream UDF。