2012-07-25 148 views
1

我已经在java中编写了一个用于处理大量数据的代码。我想将它分发到多台机器上以处理部分数据并更快地完成处理。我之前从未从事过分布式计算。有没有工具可以完成这项工作?谢谢。如何在多台机器上通过java分发程序?

+3

听起来像你正在寻找一个[hadoop](http://hadoop.apache.org/)集群 – Joost 2012-07-25 08:43:43

+0

我会确保你正在尽可能有效地处理数据,并且IO不是瓶颈。多台机器提供更多的CPU和内存,但可能会使IO瓶颈变得更糟。 – 2012-07-25 09:25:07

+0

@PeterLawrey我相信IO在我的情况下不是问题。这是需要很多时间的处理。这就是为什么我想分发它。谢谢 – 2012-07-25 09:33:49

回答

1

Gridgain工作得很好。 Hadoop是一个伟大的,但需要更多的开发。 Hazelcast coulb是一个很好的局外人

我也可以引用其他人,但是如果不知道涉及的数据类型和处理类型,很难回答你的问题。进程I/O密集型还是CPU绑定?

其中一个问题是“数据集有多大?”。

+0

谢谢。我刚刚阅读了Hadoop,试图找到如何指导。我需要找到每对数据集之间的交集。因此,即使是相对较大的数据也需要很长时间。 – 2012-07-25 09:04:44

+1

处理是CPU绑定的。 – 2012-07-25 09:32:25

+0

自3年以来,我们在生产中使用Gridgain,并且我们发现它非常灵活且易于使用。这是CPU密集型任务 – Grooveek 2012-07-25 09:43:07

0

好像你想要做一个map-reduce algorithem。

Hadoop是一个开源项目,提供了一个框架来做到这一点。

相关问题