2017-04-25 83 views
0

我读大数据和Hadoop教程,我发现在HDFS这2点低延迟的数据访问,Hadoop的

流数据访问:的时间来阅读整个数据集更重要而不是阅读第一个的潜伏期。 HDFS基于一次写入和多次读取模式。

&

低延迟数据访问:的应用程序需要很短的时间来访问的第一个数据不应该使用HDFS,因为它给予,而不是时间来获取第一重视整个数据记录。

我很困惑,因为第一次一个人说的时间来阅读整个数据集,更重要的和第二个说:...不应该使用HDFS,因为它是给予整个数据

重要性我不明白什么是预期的?我是Hadoop的新手。

回答

0

流数据访问:

HDFS是基于原则 的主要焦点是读取完整的数据,最快的方式设定比服用更重要“写一次,读了很多次。”从数据集中获取单个记录的时间。

作为每Hadoop的:通用引导

MapReduce的基本上是一个批处理系统,并且不适合于交互式分析。您无法运行查询并在几秒钟或更短时间内得到结果。查询通常需要几分钟或更长时间,所以最好是离线使用,在处理循环中没有人员坐在等待结果。

MapReduce非常适合需要以批处理方式分析整个数据集的问题。 RDBMS适用于点查询或更新,其中数据集已被索引以提供相对较少数据量的低延迟检索和更新时间。 MapReduce适用于数据一次写入和多次读取的应用程序,而关系数据库适用于不断更新的数据集。

延迟:请参考下面这个What is low latency access of data?