谈到MapReduce工作时,Cassandra优于HBase的优势是什么?Cassandra vs HBase for Hadoop工作
我有很多我想从HDFS移动到数据库的小文件,并且这些文件将被输入到MapReduce作业中。我不会把所有的文件,但对于某个用户,所以可能整个行,至少一个列家庭。我可以从某个时间段拿档案。
我知道HBase是的Hadoop数据库,所以我期望能整合好我需要的东西,但是我也看到Cassandra有更好的性能。但是我想知道当您将它用作MapReduce作业的输入时,情况如何。性能仍然比HBase更好吗?
我必须强调一点,我并不是在寻找HBase和Cassandra的对比,而是在MapReduce作业的具体案例中。诸如this之类的问题不会具体谈论MapReduce作业的性能。另外,我正在寻找新的信息(我提到的问题是从2011年起,我相信自那以后可能会有一些变化)。
谢谢您的建议,但该问题和答案可能有点过时(自2011年以来进行了多少更改?)。另外,我并不只对比较数据库感兴趣,但想知道哪些MapReduce作业具有更好的性能,并且没有关于它的任何信息。 – Marko