所以,我的Sidekiq工作程序中出现了内存泄漏。我有一个工作服务器,只有一个队列用于这个工作任务,一周内可以达到大约10G的RSS。
我试着用一个工人线程在本地复制它,瞧,我在一个晚上从200M到1G,处理一个任务/分钟。当然,我想知道泄漏了什么,所以我也记录了RSS、heap_live_slot和heap_free_slot。当我绘制结果时,我可以看到RSS的稳定增长,而实时和空闲时段随机波动,但在定义良好且恒定的边界内,而它们的总和保持不变。
在这一点上,我得出的结论是,泄漏可能不是发生在Ruby代码中,而是发生在一些本机扩展中。因此,我通过RVM重新安装了支持Jemalloc的ruby:rvm reinstall 2.4.2 --with-jemalloc
然后我设置了MALLOC_CONF
:
export
MALLOC_CONF='prof_leak:true,lg_prof_sample:0,prof_final:true,stats_print:true'
并启动Sidekiq。刚启动的Sidekiq有1个工作线程,价值约为200M RSS,但当我按Ctrl+C并查看jemalloc的统计输出时,我看到了完全不同的东西:
Arenas: 32
Quantum size: 16
Page size: 4096
Maximum thread-cached size class: 32768
Allocated: 34056, active: 61440, metadata: 2949272, resident: 2981888, mapped: 6352896, retained: 2035712
什么?6M映射?这不可能是真的。所以我启动irb并执行以下操作:
2.4.2 :001 > arr = []
=> []
2.4.2 :002 > loop do
2.4.2 :003 > arr << 'a'*10000000
2.4.2 :004?> sleep 1
2.4.2 :005?> end
在等待irb进程攀升到大约1G RSS后,我停止了进程。。。看到完全相同的数字。也许可视化调用图可以帮助我了解发生了什么?
jeprof --show_bytes --pdf `which ruby` jeprof.10536.0.f.heap > ruby.pdf
Using local file /home/mhi/.rvm/rubies/ruby-2.4.2/bin/ruby.
Using local file jeprof.10536.0.f.heap.
No nodes to print
所以有些地方显然出了问题,这就是我需要帮助弄清楚的地方。
以下是jemalloc stat的完整输出:https://pastebin.com/RiMLtqA6
UPD
因此,我已经更新了所有与本机扩展相关的gem,以下是bundle exec ruby -e 'puts Gem.loaded_specs.values.select{ |i| !i.extensions.empty? }.map{ |i| "#{i.name} #{i.version}" }'
:
io-console 0.4.6
nokogiri 1.8.1
bcrypt 3.1.11
debug_inspector 0.0.3
binding_of_caller 0.7.2
json 2.1.0
capybara-webkit 1.14.0
damerau-levenshtein 1.3.0
unf_ext 0.0.7.4
eventmachine 1.2.5
ffi 1.9.18
kgio 2.11.0
msgpack 1.1.0
mysql2 0.4.9
rainbow 2.2.2
raindrops 0.18.0
rbtrace 0.4.8
stackprof 0.2.10
therubyracer 0.12.3
unicode 0.4.4.4
unicorn 5.3.0
相同的结果:RSS,内存插槽
Ruby 2.4.2有一个已知的jemalloc
问题。
这个问题大约一个月前就解决了,但我不知道你使用的软件包是否打过补丁。。。事实上,我认为补丁还没有发布。很可能所有的jemalloc
统计数据都是不相关的。
此外,这似乎是一个X-Y问题(你问的是jemalloc
,而你可能想要一个内存"泄漏"的解决方案)。
在假设本机代码中存在内存泄漏(尽管这是一种明显的可能性)之前,我会考虑任务的作用域可能会如何影响垃圾收集器,并尝试最小化作用域和任何长期变量。
例如,如果您的任务是Proc
,则它可能绑定到全局范围,这意味着某些变量可能永远存在。。。
尝试将任务封装在函数中,并确保任务完成后没有引用任何变量。