2015-07-10 61 views
0

我是Hadoop的新手,对内部存储有疑问。据我所知,HDFS中的所有内容都存储为键/值对。现在,在Yarn的帮助下,出现了不同的技术来从RDMBS(使用Sqoop)导入不同类型的数据,如流和数据。这些数据如何在HDFS内部存储?例如,关系表中的行以某种方式转换为键/值对?即使使用Hive和Hcatalog,您也可以创建表格并将数据加载到它们。所有这些都是在hadoop内部完成的?Hadoop中的内部存储空间

感谢很多提前

回答

1

我不认为数据存储为在HDFS键/值。它存储为普通文件以非结构化格式存储。但是,当您运行MapReduce作业时,将根据您选择的InputFormat将数据视为键值对。例如,如果输入格式是TextInputFormat,则键将是文件中数据的位置,而值将是一行数据,而当您使用不同的输入格式时,键的值分配将会不同。