我有3个Cassandra节点集群,有1个种子节点和1个火花主节点,以及3个从节点,有8个RAM和2个内核。这里是输入我的火花的工作创建分区太多的火花
spark.cassandra.input.split.size_in_mb 67108864
当我与这个配置集我看到有周围89.1 MB的数据大致1706765记录的创建围绕768的分区上运行。我无法理解为什么会创建这么多的分区。我正在使用Cassandra Spark连接器版本1.4,因此该错误在输入拆分大小方面也是固定的。
只有11个唯一的分区键。我的分区键有总是测试的appname和总是从0-10的随机数,所以只有11个不同的唯一分区。
为什么有这么多的分区和怎么来的火花决定多少分区创建
〜70 TB每分裂?真? :)什么是'sc.defaultParallelism'? – zero323
总数据为89.1 MB,其中1706765分为768个分区 – Nipun
sc.defaultParallelism是spark 1.4中的默认值,我没有在代码中设置任何地方 – Nipun