2017-02-24 105 views
1

我使用MongoDB的火花连接器产生从MongoDB的火花可以工作在MongoDB的火花连接器

val df1 = df.filter(df("dev.app").isNotNull).select("dev.app").limit(100) 

这是一个大集合的数据帧生成的数据帧速度太慢,所以我限制了行100

当我使用

df1.show()

它的工作速度快。

但是当我使用

df1.count 

看到DF1的拳头排

结果是enter image description here

实在是太慢了。

有人可以给我一些建议吗?

回答

0

我认为你应该尝试调整spark.sql.shuffle.partitions配置。你可能数据非常小,但是你创建的分区默认太多了,它是200 see this for info