2016-02-11 98 views
1

我想知道Hadoop批量分析与Hadoop实时分析之间的区别Hadoop批量分析与Hadoop实时分析有什么区别

E.g Hadoop real time analytics可以使用Apache Spark完成,而Hadoop batch analytics可以使用Map reduce编程完成。

此外,如果实时分析是更受欢迎的分析,那么批处理分析需要什么?

谢谢

回答

2

批处理意味着你处理迄今收集的aaaaaaall数据。实时意味着您在进入系统时处理数据。两者都不是“首选”。

0

Hadoop批量分析和实时分析完全不同,它取决于你的用例,你想要什么,例如 - 你有大量的行数据集,你只想从该数据集中提取少量信息,信息可能基于一些计算/趋势等,这可以通过批处理来完成,例如找到自过去50年以来的最低温度。

虽然实时分析,意味着您需要尽快获得期望的输出,就像您的朋友在推特上发布推文一样,只要您的朋友推送即可获得推文。

+0

Twitted?这是推文。你会得到推文,而不是twits –

1

让我来解释用于批处理的用例&真正的处理。

批处理:

在股市应用程序,你必须要求提供以下汇总数据每天

  1. 对每只股票,买入订单的总数和金额都买订单
  2. 对于每个存货,卖出订单总数和所有卖出订单总数
  3. 对于每个存货,成功订单总数&个失败订单

这里需要24小时股市的数据来生成这些报告。

**天气应用:**

所有国家在世界上所有的地方保存天气报告。对于Newyork或美国等国家的特定地点,查找自1900年以来最热和最冷的一天。此查询需要大量输入数据集,这需要在数千个noudes上进行处理。

您可以使用Hadoop Map Reduce job提供以上总结。您可能需要处理存储在Hadoop集群中的4000多台服务器上的Peta字节数据。

实时分析:

另一种使用情况,您登录到社交网站,如Facebook或Twitter。你的朋友在你的墙上张贴了一条消息,或在推特上发了推文。你必须实时获得这些通知。

当您访问喜欢的网站Booking.com预订酒店,你会得到像X用户实时通知正在查看这家酒店等,这些通知在实时生成。

在上面使用的情况下,系统应该处理的数据流和产生的,而不是等待一天的数据实时地通知给用户。 Spark流处理为处理这些类型的场景提供了极好的支持。

星火使用中 - 内存处理更快的查询执行,但它不可能总是使用 - 内存数据的饿鬼字节。 Spark可以处理TB级数据,Hadoop可以处理Peta数据。

+0

我会考虑股市实时。股票交易,波动的价格等 –

+0

只是为了展示用于生成汇总报告的peta字节数据,我已经将它用于批处理示例。 –