Soft_Job 板


LINE

原本要想讲心得,但想一想每个系同异质性太高 又难有 SOP, 因此先以可以用的工具以及分析面相下手 当 SRE 回报了问题: Case 1. 今天开始 latency 变高,但 QPS 没比较多,也没 Deploy 新版 Case 2. CPU 用不到 50% 开始 timeout Case 3. 压测没问题,但系统跑一周後 latency 开始变高 Case 4. 新版本的记忆体使用量开始变高,但这个新版包含了三个月分的 commit 这些问题乍看之下是很难猜出原因,或是随便说 qps 变高能唬(?)过去的 假设你的系统很肥大,同时有个 10 以上在开发, 且程式早就肥到你无法轻易猜出可能问题 此时也比较难去逐个 commit 比对哪里开始出问题 因此一些 profiling 的技巧可以帮助你快速找到 root cause 1. 记忆体 - JVM heap GC 启用方法就是你在执行 java 时带上参数 -XX:+PrintGCDetails (详细请见文件) 在执行的时候就会顺便写 gc log,这个通常建议预设开启, 往後 debug prod issue 可以直接用就方便很多 首先你要知道你的 JVM 用了哪个 GC 演算法,最常见的大概是 CMS or G1, 演算法细节先不讨论 gc log 可以用这套软体帮助图形化 https://it.gcplot.com/ 图形化後大概可以看 GC 的频率与耗时、eden/tenured spaces 在 gc 前後的状况等 在这个阶段可以判断出该往 memory leak 或调整JVM记忆体配置的方向 1-2 记忆体 - Memory profiling 在这个阶段需要去 dump memory heap 来做分析看是否有无 memory leak 方法很简单,直接执行下列指令,这个指令是 JDK 内建的 jmap -dump:format=b,file=/tmp/heapdump.bin [pid] 不过注意这个指令会停住整个 JVM 几秒 (根据记忆体大小与效能), 如果在 PROD 执行建议先把流量切到 0 然後你就取得一个很大的档案 (file size ~= JVM heap size) 然後一样去用软体分析,这里我推荐 https://www.eclipse.org/mat/ 当用软体分析完後大概可以看到那些物件占了最多记忆体与它的 stack trace 但同时你也需要具备该系统知识 这样才能判断记忆体占用是否符合预期 如果有 memory leak 此时看 stack trace 也可以轻易知道是哪段扣出问题 2. CPU profiling 这部分可以透过第三方软体做 profiling,我推荐 https://github.com/jvm-profiling-tools/async-profiler 你可以简单下载它的 release 档案,并复制到要 profiling 的 JVM 底下, 范例指令 ./profiler.sh -e itimer -d [SECONDS] -o flat [PID] > cpu.log 这个指令是轻量的,所以是可以在 PROD 执行的, 但避免你被 SRE 暗杀建议还是要沟通好 执行完後会取得类似如下的 log --- 6790000000 (98.84%) ns, 679 samples [ 0] Primes.isPrime [ 1] Primes.primesThread [ 2] Primes.access$000 [ 3] Primes$1.run [ 4] java.lang.Thread.run 此时就能判断最吃 cpu 的 func 是否符合你的预期 所谓的符合预期....当然你还时要够熟系统才能判断 2-2 CPU - Thread dump 如果你猜有 deadlock 发生,可以执行下列指令取得 thread dump jstack -l [PID] > cpu.log 这指令也是 JDK 内建,很方便 那看这个 dump 需要具备 OS, Multi-thread, deadlock 等知识 当然有些软体会帮你判断,但避免误判建议这些知识还是需要的 3. Disk IO 这部分遗憾目前没有找到适合的 profiling 软体,尤其是针对 application 的 目前只能有 OS 层级监控 Disk IOPS 如果各位有好用的方法再麻烦推荐 以上大概涵盖了 CPU, Memory, Disk 等的可用工具/分析面向 但在做这些之前基本的监控要先到位, 如 QPS, latency, Server CPU/Memory, network 等 但 troubleshooting 心法我觉得比较难整理出有系统的逻辑, 毕竟我现在还是常常绕一大圈 囧 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 106.73.26.66 (日本)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1636555226.A.FF2.html ※ 编辑: alihue (106.73.26.66 日本), 11/10/2021 22:41:40
1F:→ peter98: 推 这个上班有用过11/10 22:52
2F:推 wangshichen: 这个必推11/10 23:27
3F:推 qrtt1: 求网页好读版。有没有考虑转 FB 相关社团讨论?11/10 23:47
抱歉我不想要 ptt id 与 fb 连结,但文章欢迎转贴到其他地方 ※ 编辑: alihue (106.73.26.66 日本), 11/11/2021 00:11:19
4F:推 itoni: 推 JFR也不错11/11 04:34
感谢补充
5F:推 saitoh: 遇到十秒就把Heap全吃爆进Full GC的外包PG就只能靠通灵了11/11 09:10
外包: 请加更多的记忆体 ※ 编辑: alihue (106.73.26.66 日本), 11/11/2021 09:42:23
6F:推 ayayay2288: 推 最近也遇到类似问题 11/11 10:02
※ 编辑: alihue (106.73.26.66 日本), 11/11/2021 11:57:16 ※ 编辑: alihue (106.73.26.66 日本), 11/11/2021 13:03:23
7F:→ viper9709: 推分享 11/11 17:43
8F:推 lokstory: 刚好遇到记忆体问题,推 11/14 22:06







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:BabyMother站内搜寻

TOP