0

如何在spark scala流应用程序中清理JVM占用的内存。我正在运行60秒间隔的流式作业。对于我的第一个六小时之后没有问题,我正面临着JVM堆内存问题。有没有什么办法编程,我可以在火花Scala中清理我的GC或JVM内存。如何在spark scala或pyspark中清理JVM堆内存

在我的应用程序中,我使用Dataframe,registertemptable也结束了我的程序,我正在将结果写入HDFS。目前在我的应用程序中引发SQL上下文级别,我正在解除缓存,就像我们可以释放内存的任何其他方式一样?

错误消息:异常在线程“DAG调度事件循环” java.lang.outofmemoryError:Java堆空间

感谢

Venkat

回答

0

我建议你看看有没有是应用程序中的任何线程泄漏。 您可以查看执行程序日志附近的应用程序主文件中的线程转储。

尝试设置此参数。 --conf spark.cleaner.ttl = 10000。

如果您使用的是缓存,我建议您在内存和光盘中都使用persist()它