Hadoop批量分析与Hadoop实时分析有什么区别

我想知道Hadoop批量分析与Hadoop实时分析之间的区别。Hadoop批量分析与Hadoop实时分析有什么区别

E.g Hadoop real time analytics可以使用Apache Spark完成，而Hadoop batch analytics可以使用Map reduce编程完成。

此外，如果实时分析是更受欢迎的分析，那么批处理分析需要什么？

谢谢

批处理意味着你处理迄今收集的aaaaaaall数据。实时意味着您在进入系统时处理数据。两者都不是“首选”。

2016-02-11 20:55:04 facha

Hadoop批量分析和实时分析完全不同，它取决于你的用例，你想要什么，例如 - 你有大量的行数据集，你只想从该数据集中提取少量信息，信息可能基于一些计算/趋势等，这可以通过批处理来完成，例如找到自过去50年以来的最低温度。

虽然实时分析，意味着您需要尽快获得期望的输出，就像您的朋友在推特上发布推文一样，只要您的朋友推送即可获得推文。

2016-02-12 05:37:27 subodh

Twitted？这是推文。你会得到推文，而不是twits –

让我来解释用于批处理的用例&真正的处理。

批处理：

在股市应用程序，你必须要求提供以下汇总数据每天

这里需要24小时股市的数据来生成这些报告。

**天气应用：**

所有国家在世界上所有的地方保存天气报告。对于Newyork或美国等国家的特定地点，查找自1900年以来最热和最冷的一天。此查询需要大量输入数据集，这需要在数千个noudes上进行处理。

您可以使用Hadoop Map Reduce job提供以上总结。您可能需要处理存储在Hadoop集群中的4000多台服务器上的Peta字节数据。

实时分析：

另一种使用情况，您登录到社交网站，如Facebook或Twitter。你的朋友在你的墙上张贴了一条消息，或在推特上发了推文。你必须实时获得这些通知。

当您访问喜欢的网站Booking.com预订酒店，你会得到像X用户实时通知正在查看这家酒店等，这些通知在实时生成。

在上面使用的情况下，系统应该处理的数据流和产生的，而不是等待一天的数据实时地通知给用户。 Spark流处理为处理这些类型的场景提供了极好的支持。

星火使用中 - 内存处理更快的查询执行，但它不可能总是使用 - 内存数据的饿鬼字节。 Spark可以处理TB级数据，Hadoop可以处理Peta数据。

2016-02-12 13:24:51

我会考虑股市实时。股票交易，波动的价格等 –

只是为了展示用于生成汇总报告的peta字节数据，我已经将它用于批处理示例。 –

回答