2016-11-14 61 views
0

我正在使用Spark 1.6.0。和DataFrame API来读取分区镶木地板数据。从Spark中读取地板数据时有多少个分区

我想知道有多少分区将被使用。

这里是我的数据的一些数字:

  • 2182文件
  • 196分区
  • 2 GB

看来,星火采用2182个分区,因为当我执行count,这项工作分成2182个任务。

这似乎是由df.rdd.partitions.length

证实是正确的吗?在所有情况下 ?

如果是,关于数据量是否过高(即是否应该使用df.repartition来减少它)?

回答

0

是的,您可以使用重新分区方法来减少任务的数量,使其与可用资源保持平衡。您还需要定义每个节点的执行程序数量,否。节点和内存每个节点提交应用程序,以便任务将并行执行并利用最大的资源。

相关问题