2016-09-21 69 views
7

如何获取用于Spark作业的整体内存?我无法获得我们可以参考的确切参数检索相同。已经提到Spark UI,但不确定我们可以参考的字段。此外,在神经节,我们有以下几种选择: 一)内存缓冲器 B)高速缓冲存储器 C)可用内存 d)共享内存 五)免费交换空间监控Spark作业的内存使用情况

没能获得与使用的内存的任何选项。有没有人有关于此的一些想法。

回答

0

如果你坚持你的RDD,你可以通过UI看到它们在内存中有多大。

很难知道有多少内存用于中间任务(例如洗牌)。基本上Spark会根据需要使用尽可能多的内存。这意味着如果您的RDD占用了超过50%的可用资源,则应用程序可能会减慢,因为可用于执行的资源更少。

+0

谢谢您的输入。是的,我们在中间阶段坚持了一个RDD,但要求我们需要计算整个工作周期内使用的“使用的内存”或平均内存。如果我们可以使用一些用户界面或其他工具来获取它,您能否提供见解? –