2012-07-24 89 views
3

我有几百万/十亿(10^9)个数据输入集,需要处理。 他们很安静小< 1kB。他们需要大约1秒的时间来处理。并行处理云中的小函数

我已阅读了很多关于Apache Hadoop,Map Reduce和StarCluster的信息。 但我不确定什么是最有效和最快的方式来处理它?

我在考虑使用Amazon EC2或类似的云服务。

+0

Hadoop和MapReduce具有很强的适应性,但它​​们在某些方面肯定更好。你愿意/能够编码吗?你知道什么语言?你需要对数据进行什么样的处理? – 2012-07-24 19:47:24

+0

我想我可能只是看着你的个人资料;) – 2012-07-24 19:49:21

+0

@PaulM语言并不重要,我知道Python,Java,Ruby,C,C++,所以我会(希望)能够学习它:)输入是一个小字符串,它会像sha512散列一样处理 - 至少它是一些散列函数 - 但我不允许提供其他细节。 – Mark 2012-07-24 19:52:59

回答

3

您可能会考虑类似Amazon EMR这样的问题,它会照顾很多Hadoop管道。如果你只是希望快速编写代码,hadoop streaming,hive和PIG都是开始使用hadoop的好工具,但要求你了解MapReduce的所有内容。

+0

感谢您的回复。我在问题评论中添加了一些细节。你能推荐一些特殊的方法(流/猪/猪)吗?对不起,我无法提供更多的细节。 – Mark 2012-07-24 19:55:17

+0

在这种情况下,我会尝试在Amazon EMR上使用hadoop流。 Hadoop流媒体可让您使用您选择的语言编写像unix管道一样的MapReduce程序。权衡是一种表现惩罚,对您而言可能有意义或无意义。 Amazon EMR为您节省了启动集群的麻烦。您必须为Amazon EMR支付费用。 – 2012-07-24 20:16:28

+0

谢谢,我会深入研究一下。 – Mark 2012-07-24 20:59:20