作者sachialanlus (yeh)

看板PC_Shopping

標題

[閒聊] LLM 推理用機器

時間Sun Jun 16 15:43:26 2024

由於最近 LLM 發展越來越快，剛好自己也有一些 LLM 的需求。但又不想要使用 OpenAI 或是其他供應商的服務。從前幾個月開始就有想要自己弄個機器來架設服務的想法。最近開始也對高參數的模型越來越好奇，但由於大容量 VRAM 的 GPU 實在是買不起，所以想說是不是轉用 CPU 來玩玩看。我看了很多技術分析和 Benchmark，基本上都說 LLM 的 inference 目前是 memory bound，也就是 memory bandwidth 是瓶頸。所以按照這個思路用 CPU 來跑模型的話首要提升的就是 DDR 的 bandwidth。我看了下 threadripper 和 xeon 的幾個型號，其中我覺得 CP 值比較高的是 Intel 3435x 可以 8 通道 DDR5-4800，換算起來頻寬大概是主流 PC 的 3-4 倍。但我去拉了下估價單 W5-3435X (56500$) + Asus Pro WS W790-ACE (27990$) + Kingston 32GB 4800MT D5 ECC * 8 (40800$) = 125290$ 為了要用這顆 CPU，整個成本算起來根本不比買多張卡來得划算多少。我就在想是不是還是 GPU 多卡買一買就好了，反正即使 256GB 的 Ram 放得下的模型在我的平台上根本也跑不動。唯一想到的用途就是同時開很多個 instance 來服務不同的需求。 (上上個月還有海淘一張 2080Ti 22G 來試試看，結果用沒幾天就壞了... 還好能退) 最近也有在看 AMD 的 Strix Point，這代預期的 iGPU 是 RDNA3+ 16CU 大概 RTX-2050 的效能，但因為可以 DDR5-5600 所以擴充性會比 Strix Halo 只能用 LPDDR5x 來得好。選 Strix Point 就等同於犧牲了當初追求的效能，但優點是低功耗而且便宜。是不是應該等 Strix Point 出來組一台 128GB 的平台來跑跑小模型就好。相比多卡的方案用 iGPU 的好處就是低功耗，但效能實在是天差地別。有人也有類似的煩惱嗎? 我自己的話預算希望是 100k 以內，最多捏到 150k。 ----- Sent from JPTT on my Xiaomi 23127PN0CG. --

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.160.35.51 (臺灣) ※ 文章網址: https://webptt.com/m.aspx?n=bbs/PC_Shopping/M.1718523808.A.521.html

1^F：→ popblue: 何不先用AWS測試你需要什麼硬體規格再來 42.73.68.247 06/16 16:05

確實好像可以先去雲端平台租高階 CPU 來玩玩看，這我倒是之前沒想過。之前對於雲端平台就只想到租 GPU 而已。

2^F：→ popblue: 買？ 42.73.68.247 06/16 16:05

3^F：→ moonlightz: 用mac會不會比較好？ 42.79.227.235 06/16 16:07

Mac 的話剛看了下 Mac Studio 好像也不是不行，但稍微爆預算。

4^F：推 greg7575: 4090 屌打各式CPU 1.169.218.12 06/16 16:14

5^F：推 vieris: 用cpu跑太慢了用gpu的話沒有40g以上的ram 109.42.179.180 06/16 16:30

6^F：→ vieris: 根本塞不進LLM 有自己訓練的需求不如去租s 109.42.179.180 06/16 16:30

7^F：→ vieris: erver來用 109.42.179.180 06/16 16:30

我的需求只有推理，所以不需要考慮租用大 GPU 來訓練。

8^F：→ scarbywind: 去對岸挖過時的EPYC比較有機會吧 114.46.146.58 06/16 16:31

9^F：→ scarbywind: https://youtu.be/oDIaHj-CGSI 114.46.146.58 06/16 16:34

10^F：→ scarbywind: 如果你有辦法用cpu去跑的話 114.46.146.58 06/16 16:35

11^F：→ scarbywind: 24通道 40萬台幣 114.46.146.58 06/16 16:36

12^F：→ scarbywind: 不過這好像跟過時沒關係(X) 114.46.146.58 06/16 16:37

嚴重爆預算這真的捏不了...

13^F：→ spfy: 所以你還沒測過CPU跑的效果？ 27.52.65.195 06/16 16:42

我有先用目前的配備用 CPU 跑過，7b q4 大概 12 t/s，我覺得已經夠用了。但如果想要跑大一點的模型像是 70b q4 的話就只有 0.9 t/s，遠遠達不到可用的狀態。內文裡面少講一點就是如果改用 Strix Point 的話就是日常使用沒問題，但就跟大模型說掰掰了。以換換病的比喻就是吃了止痛藥但未來可能還會發作。

14^F：推 ptta: colab pro, AWS都可以先測試一下？ 220.136.10.210 06/16 16:47

15^F：→ ptta: 花個幾百塊台幣而已 220.136.10.210 06/16 16:47

嗯嗯我覺得我應該會朝著使用雲端平台租個高階 CPU 來先試試看效果 ※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:12:05

16^F：→ kivan00: 先試看看花多少時間建立環境跟調整用用 122.118.53.96 06/16 17:12

17^F：→ kivan00: 看囉 Nvidia猛的是在生態 122.118.53.96 06/16 17:12

※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:12:59 ※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:13:34 ※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:14:41 ※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:15:28 ※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:17:45

18^F：→ yymeow: 我自己跑GPT的心得是，瓶頸在GPU 114.37.2.212 06/16 17:32

19^F：推 AIRURU: 可以考慮用vast租2-4張4090跑跑看感受下效 59.126.120.156 06/16 17:33

20^F：→ AIRURU: 果 59.126.120.156 06/16 17:33

我的用途會比較像是長期在線的，主要會拿來跑 code completion, 日文翻譯和 rag。如果是租用 4 張 4090 的話感覺長期使用成本太高。

21^F：→ yymeow: 然後還跟VRAM有關係，VRAM不夠，給的文章 114.37.2.212 06/16 17:33

22^F：→ yymeow: 長一點，就讀不下去了 114.37.2.212 06/16 17:34

※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:46:12

23^F：推 AIRURU: 我的意思是先用租的確認模型執行需要的vra 59.126.120.156 06/16 17:55

24^F：→ AIRURU: m，例如先跑q4評估精度、速度可不可用上下 59.126.120.156 06/16 17:55

25^F：→ AIRURU: 文要多長，如果tps很夠用可以再考慮是否降 59.126.120.156 06/16 17:55

26^F：→ AIRURU: 級改更多卡湊vram 59.126.120.156 06/16 17:55

是不是即使是大模型上在實務上還是比較建議用多卡 GPU 而非 CPU 呀。當初會首要考慮 CPU 主要是因為覺得推理用不到那麼多的算力，所以想說選 CPU 比較好擴充 ram。畢竟我看 llama.cpp 的討論串裡面大家分享出來的效能真的就是跟 memory bandwidth 成正比，不論是 CPU 還是 GPU 都是這個結果。 ※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 18:13:42

27^F：→ narukaza: 這預算怎麼會是選INTEL，連垃圾佬都不 114.34.174.204 06/16 18:23

28^F：→ narukaza: 撿的東西(X 114.34.174.204 06/16 18:23

29^F：→ narukaza: EPYC 7002 7003對岸撿不是隨便都比W5-3 114.34.174.204 06/16 18:23

30^F：→ narukaza: 435好嗎，你看我剛撿的7K62單顆都吊打3 114.34.174.204 06/16 18:23

31^F：→ narukaza: 435...你這預算都可以組雙路了吧 114.34.174.204 06/16 18:23

當初看上那顆是因為是 8 通道 DDR5 OAO

32^F：推 FXW11314: 不是，你都已經研究到知道這玩意兒很吃 42.73.135.226 06/16 18:31

33^F：→ FXW11314: memory bandwidth 了怎麼還會想用CPU跑 42.73.135.226 06/16 18:31

34^F：→ FXW11314: ？DDR跟GDDR是可以差一個數量級的欸 42.73.135.226 06/16 18:31

35^F：推 Ghosts: 3090x4 + nvlink(非必要) 最簡單 140.118.155.56 06/16 18:35

36^F：→ Ghosts: 價格也不會到無法負擔，只是二手風險高 140.118.155.56 06/16 18:35

37^F：→ Ghosts: llama.cpp的問題是高併發會輸vllm 140.118.155.56 06/16 18:35

38^F：→ Ghosts: 除非要用cpu+gguf 4bit之類的模型 140.118.155.56 06/16 18:35

39^F：→ Ghosts: 不然個人偏好還是vllm+gpu 140.118.155.56 06/16 18:35

40^F：→ Ghosts: 然後12t/s超慢，顯卡隨便都能破百以上 140.118.155.56 06/16 18:37

41^F：推 FXW11314: 再說即使只跑推理本質上還是一堆矩陣運 42.73.135.226 06/16 18:40

42^F：→ FXW11314: 算，GPU還是比CPU有優勢 42.73.135.226 06/16 18:40

確實，之後也找一些二手卡來試試看多卡好了

43^F：噓 jeffguoft: 這排版沒人噓？ 49.159.249.60 06/16 18:44

※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 18:45:16 ※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 18:47:21

44^F：→ sachialanlus: 感謝大家的建議，真的看到好多之前 118.160.35.51 06/16 18:55

45^F：→ sachialanlus: 沒有注意的盲點。我想我應該會先試 118.160.35.51 06/16 18:55

46^F：→ sachialanlus: 試看租高階 CPU 和多卡的機器來比較 118.160.35.51 06/16 18:56

47^F：→ sachialanlus: 看看，如果效能差異很明顯的話就直 118.160.35.51 06/16 18:56

48^F：→ sachialanlus: 接買多卡來組了。感謝大家~ 118.160.35.51 06/16 18:56

49^F：推 AIRURU: 用最丐的3060測試堆vram也比cpu快多了，70 59.126.120.156 06/16 19:35

50^F：→ AIRURU: B-Q4 59.126.120.156 06/16 19:35

51^F：→ AIRURU: 預算夠就直上兩張4090比較實在 59.126.120.156 06/16 19:35

52^F：→ AIRURU: http://i.imgur.com/yvoSQLW.jpg 59.126.120.156 06/16 19:35

53^F：→ AIRURU: http://i.imgur.com/ScvLEEh.jpg 59.126.120.156 06/16 19:35

54^F：推 aegis43210: 推論要用支援AMX指令集的CPU 223.137.30.114 06/16 20:49

55^F：推 aegis43210: 不然就要模型有支援老黃的推論單元 223.137.30.114 06/16 20:54

56^F：→ aegis43210: EPYC又不支援AMX，最差選擇 223.137.30.114 06/16 20:55

57^F：推 jeff85898: 除非是對資料隱私有需求不然自己架LLM 111.253.44.161 06/16 21:16

58^F：→ jeff85898: 做推論電腦和冷氣電費、噪音加一加成 111.253.44.161 06/16 21:16

59^F：→ jeff85898: 本太高了 111.253.44.161 06/16 21:16

60^F：→ jeff85898: http://i.imgur.com/JHIn78E.jpg 111.253.44.161 06/16 21:16

61^F：推 jeff85898: 啊如果真的要入坑就對岸撿一組EPYC組多 111.253.44.161 06/16 21:27

62^F：→ jeff85898: 卡或是用ARM Mac跑也許會比較安靜省電 111.253.44.161 06/16 21:27

63^F：→ nemo33: AWS EC2 G5/G6 跑 inference 118.169.226.32 06/16 21:49

64^F：推 ClixTW: 我跑Commamd R，記憶體沒爆還是慢到無法 101.136.14.4 06/16 22:41

65^F：→ ClixTW: 接受（大概每秒1Token），處理器也跑不滿 101.136.14.4 06/16 22:41

66^F：→ ClixTW: ，還是給VRAM跑吧 101.136.14.4 06/16 22:41

67^F：推 shiauber: 要塞70b的就建議直上租借了... 1.161.209.244 06/16 23:26

68^F：→ shiauber: 70b 也只是入門 1.161.209.244 06/16 23:26

69^F：→ shiauber: 剛剛看到老黃推出了 340b 1.161.209.244 06/16 23:26

70^F：→ shiauber: 稍微看了一下要inference 1.161.209.244 06/16 23:26

71^F：→ shiauber: 至少兩張 A100 or 一張 h100 1.161.209.244 06/16 23:26

72^F：→ shiauber: 這段演化真的衝很快，還是是老黃說了算 1.161.209.244 06/16 23:30

73^F：→ shiauber: 總之多學多看實作真的可以省一點 1.161.209.244 06/16 23:30

74^F：→ shiauber: 論文現在是天天噴發 llama2才發布多久 1.161.209.244 06/16 23:30

75^F：→ shiauber: llama3就出來迭代太快了 1.161.209.244 06/16 23:30

76^F：→ DLHZ: 你這完全沒研究的不如先去租個容器來用看看 111.71.213.112 06/17 00:04

77^F：→ DLHZ: 再說 111.71.213.112 06/17 00:04

78^F：推 jyhfang: 有個麻煩的地方現在這些模型和硬體超級 220.134.41.251 06/17 05:04

79^F：→ jyhfang: 快自己買硬體弄這些會不會很快就跟不上 220.134.41.251 06/17 05:05

80^F：→ jyhfang: 更好的模型的基本需求? 更高效率的硬體 220.134.41.251 06/17 05:05

81^F：→ jyhfang: 或是更棒的模型但基本需求也快速提升 220.134.41.251 06/17 05:06

82^F：→ jyhfang: 之類的這跟現在一般自組電腦對應的需求 220.134.41.251 06/17 05:07

83^F：→ jyhfang: 完全不同 220.134.41.251 06/17 05:07

84^F：推 ChouEita: 建議你好好研究模型Inference 是用什麼 101.12.19.127 06/17 09:06

85^F：推 RoarLiao: 現在噴發期除發為了賺錢不然真的不建議 61.216.44.21 06/17 11:08

86^F：→ RoarLiao: 為了興趣砸大錢 61.216.44.21 06/17 11:08

87^F：推 RoarLiao: 然後所有人都在搞gpu的項目為什麼要自己 61.216.44.21 06/17 11:10

88^F：→ RoarLiao: 想繞過去用cpu搞自己.... 61.216.44.21 06/17 11:11

	[問題/行為] 貓晚上進房間會不會有憋尿問題
	Re: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一張
	[心得] EMS高領長版毛衣.墨小樓MC1002
	[分享] 丹龍隔熱紙GE55+33+22
	[問題] 清洗洗衣機
	[尋物] 窗台下的空間
	[閒聊] 双極の女神1 木魔爵
	[售車] 新竹 1997 march 1297cc 白色四門
	[討論] 能從照片感受到攝影者心情嗎
	[狂賀] 賀賀賀賀賀！島村卯月！總選舉NO.1
	[難過] 羨慕白皮膚的女生
	閱讀文章
	[黑特]
	[問題] SBK S1安裝於安全帽位置
	[分享] 舊woo100絕版開箱!!
	Re: [無言] 關於小包衛生紙
	[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
	[心得] 蒼の海賊龍地獄執行者16PT
	[售車] 1999年Virage iO 1.8EXi
	[心得] 挑戰33 LV10 獅子座pt solo
	[閒聊] 手把手教你不被桶之新手主購教學
	[分享] Civic Type R 量產版官方照無預警流出
	[售車] Golf 4 2.0 銀色自排
	[出售] Graco提籃汽座（有底座）2000元誠可議
	[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
	[問題] 44th 單曲生寫竟然都給重複的啊啊！
	[心得] 華南紅卡/icash 核卡
	[問題] 拔牙矯正這樣正常嗎
	[贈送] 老莫高業初業 102年版
	[情報] 三大行動支付本季掀戰火
	[寶寶] 博客來Amos水蠟筆5/1特價五折
	Re: [心得] 新鮮人一些面試分享
	[心得] 蒼の海賊龍地獄麒麟25PT
	Re: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
	Re: [閒聊] OGN中場影片：失蹤人口局 (英文字幕)
	[問題] 台灣大哥大4G訊號差
	[出售] [全國]全新千尋侘草LED燈, 水草

WEB批踢踢(PTT)

PC_Shopping 板

[閒聊] LLM 推理用機器

熱門看板

贊助商連結