Soft_Job 板


LINE

原本要想講心得,但想一想每個系同異質性太高 又難有 SOP, 因此先以可以用的工具以及分析面相下手 當 SRE 回報了問題: Case 1. 今天開始 latency 變高,但 QPS 沒比較多,也沒 Deploy 新版 Case 2. CPU 用不到 50% 開始 timeout Case 3. 壓測沒問題,但系統跑一週後 latency 開始變高 Case 4. 新版本的記憶體使用量開始變高,但這個新版包含了三個月分的 commit 這些問題乍看之下是很難猜出原因,或是隨便說 qps 變高能唬(?)過去的 假設你的系統很肥大,同時有個 10 以上在開發, 且程式早就肥到你無法輕易猜出可能問題 此時也比較難去逐個 commit 比對哪裡開始出問題 因此一些 profiling 的技巧可以幫助你快速找到 root cause 1. 記憶體 - JVM heap GC 啟用方法就是你在執行 java 時帶上參數 -XX:+PrintGCDetails (詳細請見文件) 在執行的時候就會順便寫 gc log,這個通常建議預設開啟, 往後 debug prod issue 可以直接用就方便很多 首先你要知道你的 JVM 用了哪個 GC 演算法,最常見的大概是 CMS or G1, 演算法細節先不討論 gc log 可以用這套軟體幫助圖形化 https://it.gcplot.com/ 圖形化後大概可以看 GC 的頻率與耗時、eden/tenured spaces 在 gc 前後的狀況等 在這個階段可以判斷出該往 memory leak 或調整JVM記憶體配置的方向 1-2 記憶體 - Memory profiling 在這個階段需要去 dump memory heap 來做分析看是否有無 memory leak 方法很簡單,直接執行下列指令,這個指令是 JDK 內建的 jmap -dump:format=b,file=/tmp/heapdump.bin [pid] 不過注意這個指令會停住整個 JVM 幾秒 (根據記憶體大小與效能), 如果在 PROD 執行建議先把流量切到 0 然後你就取得一個很大的檔案 (file size ~= JVM heap size) 然後一樣去用軟體分析,這裡我推薦 https://www.eclipse.org/mat/ 當用軟體分析完後大概可以看到那些物件佔了最多記憶體與它的 stack trace 但同時你也需要具備該系統知識 這樣才能判斷記憶體占用是否符合預期 如果有 memory leak 此時看 stack trace 也可以輕易知道是哪段扣出問題 2. CPU profiling 這部分可以透過第三方軟體做 profiling,我推薦 https://github.com/jvm-profiling-tools/async-profiler 你可以簡單下載它的 release 檔案,並複製到要 profiling 的 JVM 底下, 範例指令 ./profiler.sh -e itimer -d [SECONDS] -o flat [PID] > cpu.log 這個指令是輕量的,所以是可以在 PROD 執行的, 但避免你被 SRE 暗殺建議還是要溝通好 執行完後會取得類似如下的 log --- 6790000000 (98.84%) ns, 679 samples [ 0] Primes.isPrime [ 1] Primes.primesThread [ 2] Primes.access$000 [ 3] Primes$1.run [ 4] java.lang.Thread.run 此時就能判斷最吃 cpu 的 func 是否符合你的預期 所謂的符合預期....當然你還時要夠熟系統才能判斷 2-2 CPU - Thread dump 如果你猜有 deadlock 發生,可以執行下列指令取得 thread dump jstack -l [PID] > cpu.log 這指令也是 JDK 內建,很方便 那看這個 dump 需要具備 OS, Multi-thread, deadlock 等知識 當然有些軟體會幫你判斷,但避免誤判建議這些知識還是需要的 3. Disk IO 這部分遺憾目前沒有找到適合的 profiling 軟體,尤其是針對 application 的 目前只能有 OS 層級監控 Disk IOPS 如果各位有好用的方法再麻煩推薦 以上大概涵蓋了 CPU, Memory, Disk 等的可用工具/分析面向 但在做這些之前基本的監控要先到位, 如 QPS, latency, Server CPU/Memory, network 等 但 troubleshooting 心法我覺得比較難整理出有系統的邏輯, 畢竟我現在還是常常繞一大圈 囧 --
QR Code



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 106.73.26.66 (日本)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Soft_Job/M.1636555226.A.FF2.html ※ 編輯: alihue (106.73.26.66 日本), 11/10/2021 22:41:40
1F:→ peter98: 推 這個上班有用過11/10 22:52
2F:推 wangshichen: 這個必推11/10 23:27
3F:推 qrtt1: 求網頁好讀版。有沒有考慮轉 FB 相關社團討論?11/10 23:47
抱歉我不想要 ptt id 與 fb 連結,但文章歡迎轉貼到其他地方 ※ 編輯: alihue (106.73.26.66 日本), 11/11/2021 00:11:19
4F:推 itoni: 推 JFR也不錯11/11 04:34
感謝補充
5F:推 saitoh: 遇到十秒就把Heap全吃爆進Full GC的外包PG就只能靠通靈了11/11 09:10
外包: 請加更多的記憶體 ※ 編輯: alihue (106.73.26.66 日本), 11/11/2021 09:42:23
6F:推 ayayay2288: 推 最近也遇到類似問題 11/11 10:02
※ 編輯: alihue (106.73.26.66 日本), 11/11/2021 11:57:16 ※ 編輯: alihue (106.73.26.66 日本), 11/11/2021 13:03:23
7F:→ viper9709: 推分享 11/11 17:43
8F:推 lokstory: 剛好遇到記憶體問題,推 11/14 22:06







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:Gossiping站內搜尋

TOP