Q

火花可以工作在MongoDB的火花连接器

spark-dataframe

2017-02-24 105 views 1 likes

1

我使用MongoDB的火花连接器产生从MongoDB的火花可以工作在MongoDB的火花连接器

val df1 = df.filter(df("dev.app").isNotNull).select("dev.app").limit(100)

这是一个大集合的数据帧生成的数据帧速度太慢，所以我限制了行100

当我使用

df1.show（）

它的工作速度快。

但是当我使用

df1.count

看到DF1的拳头排

结果是enter image description here

实在是太慢了。

有人可以给我一些建议吗？

2017-02-24 Sun Tianyu

A

回答

0

我认为你应该尝试调整spark.sql.shuffle.partitions配置。你可能数据非常小，但是你创建的分区默认太多了，它是200 see this for info

2017-02-24 11:50:35 deenbandhu

相关问题

1. 火花斯卡拉连接
2. 无法连接火花Cloudant
3. 连接到Hbase1.2火花2.1
4. 火花2到火花1.6
5. 连接火花大师火花奴隶通过码头组成
6. 带火花的查询mongodb
7. Mongodb的火花很慢
8. UDF不工作火花阶
9. 火花流不工作
10. 语法指定到火花壳的查询文件（elasticsearch火花连接器）
11. 从mongodb读取火花
12. H20与火花水的火花差异
13. 火花
14. 无法序列化类org.apache.hadoop.io.DoubleWritable - MongoDB Hadoop连接器+火花+ Python
15. 在火花中组合/连接ID行
16. 要火花还是不火花？
17. 火花：火花CSV时间过长
18. 的火花
19. 如何杀死火花应用的火花作业？
20. 错误而从我的本地火花簇（PySpark）连接Cloudant DB使用火花cloudant连接器
21. 火花工人之一不工作
22. 火花垃圾连接到主
23. 蜂巢火花子进程连接回
24. 连接到elasticsearch 2.4.4火花2.X
25. 避免与火花流传输的mongoDB多连接
26. 纱线 - 执行火花的工作
27. 获取在火花
28. 如何在火花
29. 火花 - 与阶
30. 火花SQL