0
我正在使用Spark 1.6.0。和DataFrame API来读取分区镶木地板数据。从Spark中读取地板数据时有多少个分区
我想知道有多少分区将被使用。
这里是我的数据的一些数字:
- 2182文件
- 196分区
- 2 GB
看来,星火采用2182个分区,因为当我执行count
,这项工作分成2182个任务。
这似乎是由df.rdd.partitions.length
证实是正确的吗?在所有情况下 ?
如果是,关于数据量是否过高(即是否应该使用df.repartition
来减少它)?