目前,我正在从EDW(企业数据仓库)的10个表中引入Hadoop,这些表格与Star Schema模型密切相关。我喜欢Sqoop将所有这些表放在一起,导致包含csv文件的10个目录。在Hadoop中建模数据
我正在看什么是一些更好的方法来存储这些文件,然后再关闭MR作业。在开展MR工作之前,我应该遵循某种模式还是建立一个聚合体?我基本上在考虑如何将相关数据存储在一起。
我通过搜索发现的大部分内容都是存储简单的csv文件并使用opencsv读取它们。我正在寻找一些更多的参与,而不仅仅是为了CSV文件。如果转向另一种格式比csv更好,那么这没有问题。
归结为:如何最好地将一堆相关数据存储在HDFS中,以便与MR有良好的体验。