2014-10-27 63 views
1

我对这个话题做了相当多的研究,但对于找到的答案还不满意。有人说,它不仅仅取决于大小,还有许多其他因素会影响,而另一些人则说,它需要在几TB的大小范围内才能看到hadoop的真实性质。那么,测试hadoop在类似java程序上运行的最小输入数据大小是多少?要查看hadoop的好处,文件的最小数据大小是多少?

回答

3

确实,这取决于不同的事情。我会想象它至少取决于以下几点:

  • 文件大小(S)
  • 数据类型和格式
  • 簇的大小和性能计算的
  • 类型的集群之间
  • 网络连接和分析

一般来说,您拥有的数据越多,越复杂,Hadoop与“常规”Ja相比的表现就越好VA程序。我可以给你一些限制。

从“Hadoop的采购指南”(罗伯特·D·施耐德)本小书,任期

定义“大数据”应该给你也有一些指导:

大数据趋向于描述一个或多个的以下特征

  • 囊括大量信息
  • 包括各种数据类型的和格式
  • 由不同的源生成的
  • 保留很长时间
  • 通过新的和创新的应用
+0

我正在1GB的文件在Hadoop和我对这个结果作为简单的Java不寒而栗运行速度远远超过4个节点的Hadoop已用。我无法理解这背后的原因。你认为1GB文件太小而无法看到hadoop的效果吗? – re3el 2014-10-27 12:33:38

+2

这真的取决于。通常术语“大数据”与TB的大小相关,而不是千兆字节。在任何意义上我都不会称1GB大。 – 2014-10-27 13:56:48

+0

@Trinimon:请看看上面的问题 – re3el 2014-10-28 06:25:21

相关问题