我已经到了这个困境,我不能选择什么解决方案对我更好。我有一张非常大的桌子(几百个100GB)和几个较小的(几个GB)。为了在Spark中创建我的数据管道并使用Spark ML,我需要连接这些表并执行几个GroupBy(聚合)操作。这些操作对我来说确实很慢,因此我选择了其中一种:Parquet vs Cassandra使用Spark和DataFrame
- 使用Cassandra并使用索引来加速GoupBy操作。
- 根据数据的布局使用实木复合地板和分区。
我可以说Parquet分区的工作速度更快,可扩展性更好,Cassandra使用的内存开销更小。所以问题是这样的:
如果开发人员推断和理解数据布局以及它将被使用的方式,使用Parquet会不会更好,因为您将拥有更多的控制权?我为什么要为卡桑德拉造成的开销付出代价?
谢谢你的完整答案。 –