0
场景:使用HBase的,而不是在HDFS MapReduce的
我分析数TB的数据,做最重要的是一些文本挖掘和数据存储到HDFS文件。然后查询数据,我们将这些数据导入到Hive中。
但是我们还需要对增量数据执行一些更新操作。例如,如果新旧数据中存在相同的rowkey,则更新数据而不是插入。
目前我正在使用HDFS进行上述操作。现在我正考虑采用读/写操作进入HBase。
我想知道与HDFS相比,使用HBase读/写MapReduce的方法 的性能优劣。
除了这个答案,如果您在每次运行mapreduce作业时都使用hdfs中的所有数据,那么从hbase每次读取所有数据相比hfds txt或parquet文件 – halil
@halil感谢您的宝贵意见。 –
@halil您是否支持hbase或hdfs。你的评论有点模棱两可。 –