故障排除无界的Java驻留集大小（RSS）增长

我有有一个独立的Java应用程序：故障排除无界的Java驻留集大小（RSS）增长

-Xmx1024m -Xms1024m -XX:MaxPermSize=256m -XX:PermSize=256m

超过它会占用更多的内存随着时间的推移，开始交换（和减缓）和最终死了很多次（不是OOM + dump，刚刚死了，没有/ var/log/messages）。

我试过到目前为止：

堆转储：活动对象采取200-300Mb了1G堆 - >确定与堆
的活动线程数是相当恒定（〜60 -70） - >确定与线程堆栈
JMX在某一点停止应答（MB它的答案，但超时较低）
关闭掉 - 它死更快
strace的 - 似乎一切都慢下来了一点，应用程序仍然没有死亡，并不确定这事情看起来有
检查顶部：VIRT增长到5.5GB，RSS 3.7千兆

（我们开始交换明显）检查的vmstat：

--------------------------procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------ 
Sun Jul 22 16:10:26 2012: r b swpd free buff cache si so bi bo in cs us sy id wa st 
Sun Jul 22 16:48:41 2012: 0 0 138652 2502504 40360 706592 1 0 169 21 1047 206 20 1 74 4 0 
. . . 
Sun Jul 22 18:10:59 2012: 0 0 138648 24816 58600 1609212 0 0 124 669 913 24436 43 22 34 2 0 
Sun Jul 22 19:10:22 2012: 33 1 138644 33304 4960 1107480 0 0 100 536 810 19536 44 22 23 10 0 
Sun Jul 22 20:10:28 2012: 54 1 213916 26928 2864 578832 3 360 100 710 639 12702 43 16 30 11 0 
Sun Jul 22 21:10:43 2012: 0 0 629256 26116 2992 467808 84 176 278 1320 1293 24243 50 19 29 3 0 
Sun Jul 22 22:10:55 2012: 4 0 772168 29136 1240 165900 203 94 435 1188 1278 21851 48 16 33 2 0 
Sun Jul 22 23:10:57 2012: 0 1 2429536 26280 1880 169816 6875 6471 7081 6878 2146 8447 18 37 1 45 0

特区也显示出稳定系统％增长=交换：

15:40:02   CPU  %user  %nice %system %iowait %steal  %idle 
17:40:01   all  51.00  0.00  7.81  3.04  0.00  38.15 
19:40:01   all  48.43  0.00  18.89  2.07  0.00  30.60 
20:40:01   all  43.93  0.00  15.84  5.54  0.00  34.70 
21:40:01   all  46.14  0.00  15.44  6.57  0.00  31.85 
22:40:01   all  44.25  0.00  20.94  5.43  0.00  29.39 
23:40:01   all  18.24  0.00  52.13  21.17  0.00  8.46 
12:40:02   all  22.03  0.00  41.70  15.46  0.00  20.81

检查PMAP gaves以下最大贡献者：

000000005416c000 1505760K rwx-- [ anon ] 
    00000000b0000000 1310720K rwx-- [ anon ] 
    00002aaab9001000 2079748K rwx-- [ anon ]

尝试我从东西通过strace的甩PMAP了地址关联不给我匹配
添加更多的内存是不实际的（只是让后来问题出现）
开关JVM的不可能（ENV是不在我们的控制之下）

，问题是： 我还可以尝试跟踪问题的原因或尝试解决它？

来源

2012-07-23 Ivan

类似问题http://stackoverflow.com/questions/26041117/growing-resident-memory-usage- rss-of-java-process – 2016-08-25 11:47:10

问题出在一个配置文件库中 - 它记录了CPU调用/分配站点，因此需要内存来存储它。

所以，人因子这里:)

来源

2012-07-25 14:18:03 Ivan

您的JVM中的某些内容正在使用“无限”数量的非堆内存。一些可能的候选人是：

线程堆栈。
由本地代码库分配的原生堆。
内存映射文件。

当您执行线程堆栈转储时，第一种可能性将显示为大量（且增加）的线程数。（只是检查它...好吗？）

第二个你可以（可能）消除，如果你的应用程序（或它使用的某个第三部分库）不使用任何本机库。

如果您的应用程序（或其使用的某个第三方零件库）不使用内存映射文件，则可以消除第三个问题。

我猜想你没看到OOME的原因是你的JVM被Linux OOM杀手杀死了。它也有可能是JVM以本机代码（例如，由于malloc失败未被正确处理）救援出来的，但我认为JVM崩溃转储将是更可能的结果...

来源

2012-07-23 06:15:26

有与Java和glibc> = 2.10的一个已知问题（包括Ubuntu的> = 10.04，RHEL> = 6）。

治疗方法是设置此env。变量： export MALLOC_ARENA_MAX=4

有有关设置MALLOC_ARENA_MAX https://www.ibm.com/developerworks/community/blogs/kevgrig/entry/linux_glibc_2_10_rhel_6_malloc_may_show_excessive_virtual_memory_usage?lang=en

This blog post says

驻留存储器已经知道以类似于内存泄漏或内存碎片的方式蠕变的IBM制品。

在Google或SO上搜索MALLOC_ARENA_MAX以获取更多参考信息。

你可能需要调整还有其他的malloc选项以优化分配内存的低碎片：

# tune glibc memory allocation, optimize for low fragmentation 
# limit the number of arenas 
export MALLOC_ARENA_MAX=2 
# disable dynamic mmap threshold, see M_MMAP_THRESHOLD in "man mallopt" 
export MALLOC_MMAP_THRESHOLD_=131072 
export MALLOC_TRIM_THRESHOLD_=131072 
export MALLOC_TOP_PAD_=131072 
export MALLOC_MMAP_MAX_=65536

来源

2015-03-09 04:24:51

JVM可能会泄漏导致类似症状的本地内存。请参阅http://www.evanjones.ca/java-native-leak-bug.html以调试泄漏。一些bug的例子是http://www.evanjones.ca/java-bytebuffer-leak.html和http://bugs.java.com/bugdatabase/view_bug.do?bug_id=JDK-8164293。未封闭的GZIPInputStream和GZIPOutputStream实例也可能是泄漏的来源。 – 2016-08-25 11:42:08

这个讨论关于CloudFoundry上Java过程RSS大小的增长：https://github.com/cloudfoundry/java-buildpack/issues/320#issuecomment-242350879 – 2016-08-25 11:42:21

“为了追踪泄漏，使用jemalloc并打开采样分析使用MALLOC_CONF环境变量“。，请参阅http://www.evanjones.ca/java-native-leak-bug.html – 2016-08-25 11:44:09

故障排除无界的Java驻留集大小（RSS）增长

回答

相关问题