0
我想在Spark上创建数据帧的性能结果统计信息。我在groupBy之后调用count()动作并测量它花费的时间。但是,我发现如果我使用collect()而不是count(),结果花费了10倍多的时间。但是,我发现如果我使用collect()而不是count(),结果花费了10多倍的时间。为什么?我想衡量Spark的数据集合性能。计数还是收集行动?
而且,如果我正在执行像上面那样的基准测试,则应该使用count()或collect()的哪种方法。
谢谢。
但是如果我使用Spark Thrift Server - Hive,它会以与count相同的时间获取groupby查询的结果。 – Patel
那么也许在这种情况下,第一点是收集速度慢得多的原因。 – Tim
非常感谢。我认为是这样,因为我的火花驱动程序在我的机器上,而且工作人员在远程分布式群集上。 – Patel