并行处理云中的小函数

我有几百万/十亿（10^9）个数据输入集，需要处理。他们很安静小< 1kB。他们需要大约1秒的时间来处理。并行处理云中的小函数

我已阅读了很多关于Apache Hadoop，Map Reduce和StarCluster的信息。但我不确定什么是最有效和最快的方式来处理它？

我在考虑使用Amazon EC2或类似的云服务。

2012-07-24 Mark

Hadoop和MapReduce具有很强的适应性，但它们在某些方面肯定更好。你愿意/能够编码吗？你知道什么语言？你需要对数据进行什么样的处理？ – 2012-07-24 19:47:24

我想我可能只是看着你的个人资料;） – 2012-07-24 19:49:21

@PaulM语言并不重要，我知道Python，Java，Ruby，C，C++，所以我会（希望）能够学习它:)输入是一个小字符串，它会像sha512散列一样处理 - 至少它是一些散列函数 - 但我不允许提供其他细节。 – Mark 2012-07-24 19:52:59

您可能会考虑类似Amazon EMR这样的问题，它会照顾很多Hadoop管道。如果你只是希望快速编写代码，hadoop streaming，hive和PIG都是开始使用hadoop的好工具，但要求你了解MapReduce的所有内容。

来源

2012-07-24 19:52:21

感谢您的回复。我在问题评论中添加了一些细节。你能推荐一些特殊的方法（流/猪/猪）吗？对不起，我无法提供更多的细节。 – Mark 2012-07-24 19:55:17

在这种情况下，我会尝试在Amazon EMR上使用hadoop流。 Hadoop流媒体可让您使用您选择的语言编写像unix管道一样的MapReduce程序。权衡是一种表现惩罚，对您而言可能有意义或无意义。 Amazon EMR为您节省了启动集群的麻烦。您必须为Amazon EMR支付费用。 – 2012-07-24 20:16:28

谢谢，我会深入研究一下。 – Mark 2012-07-24 20:59:20

并行处理云中的小函数

回答

相关问题