2012-07-23 257 views
2

我有有一个独立的Java应用程序:故障排除无界的Java驻留集大小(RSS)增长

-Xmx1024m -Xms1024m -XX:MaxPermSize=256m -XX:PermSize=256m 

超过它会占用更多的内存随着时间的推移,开始交换(和减缓)和最终死了很多次(不是OOM + dump,刚刚死了,没有/ var/log/messages)。

我试过到目前为止:

  1. 堆转储:活动对象采取200-300Mb了1G堆 - >确定与堆
  2. 的活动线程数是相当恒定(〜60 -70) - >确定与线程堆栈
  3. JMX在某一点停止应答(MB它的答案,但超时较低)
  4. 关闭掉 - 它死更快
  5. strace的 - 似乎一切都慢下来了一点,应用程序仍然没有死亡,并不确定这事情看起来有
  6. 检查顶部:VIRT增长到5.5GB,RSS 3.7千兆
  7. (我们开始交换明显)检查的vmstat:

    --------------------------procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------ 
    Sun Jul 22 16:10:26 2012: r b swpd free buff cache si so bi bo in cs us sy id wa st 
    Sun Jul 22 16:48:41 2012: 0 0 138652 2502504 40360 706592 1 0 169 21 1047 206 20 1 74 4 0 
    . . . 
    Sun Jul 22 18:10:59 2012: 0 0 138648 24816 58600 1609212 0 0 124 669 913 24436 43 22 34 2 0 
    Sun Jul 22 19:10:22 2012: 33 1 138644 33304 4960 1107480 0 0 100 536 810 19536 44 22 23 10 0 
    Sun Jul 22 20:10:28 2012: 54 1 213916 26928 2864 578832 3 360 100 710 639 12702 43 16 30 11 0 
    Sun Jul 22 21:10:43 2012: 0 0 629256 26116 2992 467808 84 176 278 1320 1293 24243 50 19 29 3 0 
    Sun Jul 22 22:10:55 2012: 4 0 772168 29136 1240 165900 203 94 435 1188 1278 21851 48 16 33 2 0 
    Sun Jul 22 23:10:57 2012: 0 1 2429536 26280 1880 169816 6875 6471 7081 6878 2146 8447 18 37 1 45 0 
    
  8. 特区也显示出稳定系统%增长=交换:

    15:40:02   CPU  %user  %nice %system %iowait %steal  %idle 
    17:40:01   all  51.00  0.00  7.81  3.04  0.00  38.15 
    19:40:01   all  48.43  0.00  18.89  2.07  0.00  30.60 
    20:40:01   all  43.93  0.00  15.84  5.54  0.00  34.70 
    21:40:01   all  46.14  0.00  15.44  6.57  0.00  31.85 
    22:40:01   all  44.25  0.00  20.94  5.43  0.00  29.39 
    23:40:01   all  18.24  0.00  52.13  21.17  0.00  8.46 
    12:40:02   all  22.03  0.00  41.70  15.46  0.00  20.81 
    
  9. 检查PMAP gaves以下最大贡献者:

    000000005416c000 1505760K rwx-- [ anon ] 
        00000000b0000000 1310720K rwx-- [ anon ] 
        00002aaab9001000 2079748K rwx-- [ anon ] 
    
  10. 尝试我从东西通过strace的甩PMAP了地址关联不给我匹配

  11. 添加更多的内存是不实际的(只是让后来问题出现)

  12. 开关JVM的不可能(ENV是不在我们的控制之下)

,问题是: 我还可以尝试跟踪问题的原因或尝试解决它?

+0

类似问题http://stackoverflow.com/questions/26041117/growing-resident-memory-usage- rss-of-java-process – 2016-08-25 11:47:10

回答

1

问题出在一个配置文件库中 - 它记录了CPU调用/分配站点,因此需要内存来存储它。

所以,人因子这里:)

1

您的JVM中的某些内容正在使用“无限”数量的非堆内存。一些可能的候选人是:

  • 线程堆栈。
  • 由本地代码库分配的原生堆。
  • 内存映射文件。

当您执行线程堆栈转储时,第一种可能性将显示为大量(且增加)的线程数。 (只是检查它...好吗?)

第二个你可以(可能)消除,如果你的应用程序(或它使用的某个第三部分库)不使用任何本机库。

如果您的应用程序(或其使用的某个第三方零件库)不使用内存映射文件,则可以消除第三个问题。


我猜想你没看到OOME的原因是你的JVM被Linux OOM杀手杀死了。它也有可能是JVM以本机代码(例如,由于malloc失败未被正确处理)救援出来的,但我认为JVM崩溃转储将是更可能的结果...

1

有与Java和glibc> = 2.10的一个已知问题(包括Ubuntu的> = 10.04,RHEL> = 6)。

治疗方法是设置此env。变量: export MALLOC_ARENA_MAX=4

有有关设置MALLOC_ARENA_MAX https://www.ibm.com/developerworks/community/blogs/kevgrig/entry/linux_glibc_2_10_rhel_6_malloc_may_show_excessive_virtual_memory_usage?lang=en

This blog post says

驻留存储器已经知道以类似于 内存泄漏或内存碎片的方式蠕变的IBM制品。

在Google或SO上搜索MALLOC_ARENA_MAX以获取更多参考信息。

你可能需要调整还有其他的malloc选项以优化分配内存的低碎片:

# tune glibc memory allocation, optimize for low fragmentation 
# limit the number of arenas 
export MALLOC_ARENA_MAX=2 
# disable dynamic mmap threshold, see M_MMAP_THRESHOLD in "man mallopt" 
export MALLOC_MMAP_THRESHOLD_=131072 
export MALLOC_TRIM_THRESHOLD_=131072 
export MALLOC_TOP_PAD_=131072 
export MALLOC_MMAP_MAX_=65536 
+0

JVM可能会泄漏导致类似症状的本地内存。请参阅http://www.evanjones.ca/java-native-leak-bug.html以调试泄漏。一些bug的例子是http://www.evanjones.ca/java-bytebuffer-leak.html和http://bugs.java.com/bugdatabase/view_bug.do?bug_id=JDK-8164293。未封闭的GZIPInputStream和GZIPOutputStream实例也可能是泄漏的来源。 – 2016-08-25 11:42:08

+0

这个讨论关于CloudFoundry上Java过程RSS大小的增长:https://github.com/cloudfoundry/java-buildpack/issues/320#issuecomment-242350879 – 2016-08-25 11:42:21

+0

“为了追踪泄漏,使用jemalloc并打开采样分析使用MALLOC_CONF环境变量“。 ,请参阅http://www.evanjones.ca/java-native-leak-bug.html – 2016-08-25 11:44:09