Q

从Spark中读取地板数据时有多少个分区

2016-11-14 61 views 0 likes

0

我正在使用Spark 1.6.0。和DataFrame API来读取分区镶木地板数据。从Spark中读取地板数据时有多少个分区

我想知道有多少分区将被使用。

这里是我的数据的一些数字：

2182文件
196分区
2 GB

看来，星火采用2182个分区，因为当我执行count，这项工作分成2182个任务。

这似乎是由df.rdd.partitions.length

证实是正确的吗？在所有情况下？

如果是，关于数据量是否过高（即是否应该使用df.repartition来减少它）？

2016-11-14 Yann Moisan

A

回答

0

是的，您可以使用重新分区方法来减少任务的数量，使其与可用资源保持平衡。您还需要定义每个节点的执行程序数量，否。节点和内存每个节点提交应用程序，以便任务将并行执行并利用最大的资源。

2016-11-14 13:18:23

相关问题