作者sachialanlus (yeh)

看板PC_Shopping

标题

[闲聊] LLM 推理用机器

时间Sun Jun 16 15:43:26 2024

由於最近 LLM 发展越来越快，刚好自己也有一些 LLM 的需求。但又不想要使用 OpenAI 或是其他供应商的服务。从前几个月开始就有想要自己弄个机器来架设服务的想法。最近开始也对高参数的模型越来越好奇，但由於大容量 VRAM 的 GPU 实在是买不起，所以想说是不是转用 CPU 来玩玩看。我看了很多技术分析和 Benchmark，基本上都说 LLM 的 inference 目前是 memory bound，也就是 memory bandwidth 是瓶颈。所以按照这个思路用 CPU 来跑模型的话首要提升的就是 DDR 的 bandwidth。我看了下 threadripper 和 xeon 的几个型号，其中我觉得 CP 值比较高的是 Intel 3435x 可以 8 通道 DDR5-4800，换算起来频宽大概是主流 PC 的 3-4 倍。但我去拉了下估价单 W5-3435X (56500$) + Asus Pro WS W790-ACE (27990$) + Kingston 32GB 4800MT D5 ECC * 8 (40800$) = 125290$ 为了要用这颗 CPU，整个成本算起来根本不比买多张卡来得划算多少。我就在想是不是还是 GPU 多卡买一买就好了，反正即使 256GB 的 Ram 放得下的模型在我的平台上根本也跑不动。唯一想到的用途就是同时开很多个 instance 来服务不同的需求。 (上上个月还有海淘一张 2080Ti 22G 来试试看，结果用没几天就坏了... 还好能退) 最近也有在看 AMD 的 Strix Point，这代预期的 iGPU 是 RDNA3+ 16CU 大概 RTX-2050 的效能，但因为可以 DDR5-5600 所以扩充性会比 Strix Halo 只能用 LPDDR5x 来得好。选 Strix Point 就等同於牺牲了当初追求的效能，但优点是低功耗而且便宜。是不是应该等 Strix Point 出来组一台 128GB 的平台来跑跑小模型就好。相比多卡的方案用 iGPU 的好处就是低功耗，但效能实在是天差地别。有人也有类似的烦恼吗? 我自己的话预算希望是 100k 以内，最多捏到 150k。 ----- Sent from JPTT on my Xiaomi 23127PN0CG. --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 118.160.35.51 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/PC_Shopping/M.1718523808.A.521.html

1^F：→ popblue: 何不先用AWS测试你需要什麽硬体规格再来 42.73.68.247 06/16 16:05

确实好像可以先去云端平台租高阶 CPU 来玩玩看，这我倒是之前没想过。之前对於云端平台就只想到租 GPU 而已。

2^F：→ popblue: 买？ 42.73.68.247 06/16 16:05

3^F：→ moonlightz: 用mac会不会比较好？ 42.79.227.235 06/16 16:07

Mac 的话刚看了下 Mac Studio 好像也不是不行，但稍微爆预算。

4^F：推 greg7575: 4090 屌打各式CPU 1.169.218.12 06/16 16:14

5^F：推 vieris: 用cpu跑太慢了用gpu的话没有40g以上的ram 109.42.179.180 06/16 16:30

6^F：→ vieris: 根本塞不进LLM 有自己训练的需求不如去租s 109.42.179.180 06/16 16:30

7^F：→ vieris: erver来用 109.42.179.180 06/16 16:30

我的需求只有推理，所以不需要考虑租用大 GPU 来训练。

8^F：→ scarbywind: 去对岸挖过时的EPYC比较有机会吧 114.46.146.58 06/16 16:31

9^F：→ scarbywind: https://youtu.be/oDIaHj-CGSI 114.46.146.58 06/16 16:34

10^F：→ scarbywind: 如果你有办法用cpu去跑的话 114.46.146.58 06/16 16:35

11^F：→ scarbywind: 24通道 40万台币 114.46.146.58 06/16 16:36

12^F：→ scarbywind: 不过这好像跟过时没关系(X) 114.46.146.58 06/16 16:37

严重爆预算这真的捏不了...

13^F：→ spfy: 所以你还没测过CPU跑的效果？ 27.52.65.195 06/16 16:42

我有先用目前的配备用 CPU 跑过，7b q4 大概 12 t/s，我觉得已经够用了。但如果想要跑大一点的模型像是 70b q4 的话就只有 0.9 t/s，远远达不到可用的状态。内文里面少讲一点就是如果改用 Strix Point 的话就是日常使用没问题，但就跟大模型说掰掰了。以换换病的比喻就是吃了止痛药但未来可能还会发作。

14^F：推 ptta: colab pro, AWS都可以先测试一下？ 220.136.10.210 06/16 16:47

15^F：→ ptta: 花个几百块台币而已 220.136.10.210 06/16 16:47

嗯嗯我觉得我应该会朝着使用云端平台租个高阶 CPU 来先试试看效果 ※ 编辑: sachialanlus (118.160.35.51 台湾), 06/16/2024 17:12:05

16^F：→ kivan00: 先试看看花多少时间建立环境跟调整用用 122.118.53.96 06/16 17:12

17^F：→ kivan00: 看罗 Nvidia猛的是在生态 122.118.53.96 06/16 17:12

※ 编辑: sachialanlus (118.160.35.51 台湾), 06/16/2024 17:12:59 ※ 编辑: sachialanlus (118.160.35.51 台湾), 06/16/2024 17:13:34 ※ 编辑: sachialanlus (118.160.35.51 台湾), 06/16/2024 17:14:41 ※ 编辑: sachialanlus (118.160.35.51 台湾), 06/16/2024 17:15:28 ※ 编辑: sachialanlus (118.160.35.51 台湾), 06/16/2024 17:17:45

18^F：→ yymeow: 我自己跑GPT的心得是，瓶颈在GPU 114.37.2.212 06/16 17:32

19^F：推 AIRURU: 可以考虑用vast租2-4张4090跑跑看感受下效 59.126.120.156 06/16 17:33

20^F：→ AIRURU: 果 59.126.120.156 06/16 17:33

我的用途会比较像是长期在线的，主要会拿来跑 code completion, 日文翻译和 rag。如果是租用 4 张 4090 的话感觉长期使用成本太高。

21^F：→ yymeow: 然後还跟VRAM有关系，VRAM不够，给的文章 114.37.2.212 06/16 17:33

22^F：→ yymeow: 长一点，就读不下去了 114.37.2.212 06/16 17:34

※ 编辑: sachialanlus (118.160.35.51 台湾), 06/16/2024 17:46:12

23^F：推 AIRURU: 我的意思是先用租的确认模型执行需要的vra 59.126.120.156 06/16 17:55

24^F：→ AIRURU: m，例如先跑q4评估精度、速度可不可用上下 59.126.120.156 06/16 17:55

25^F：→ AIRURU: 文要多长，如果tps很够用可以再考虑是否降 59.126.120.156 06/16 17:55

26^F：→ AIRURU: 级改更多卡凑vram 59.126.120.156 06/16 17:55

是不是即使是大模型上在实务上还是比较建议用多卡 GPU 而非 CPU 呀。当初会首要考虑 CPU 主要是因为觉得推理用不到那麽多的算力，所以想说选 CPU 比较好扩充 ram。毕竟我看 llama.cpp 的讨论串里面大家分享出来的效能真的就是跟 memory bandwidth 成正比，不论是 CPU 还是 GPU 都是这个结果。 ※ 编辑: sachialanlus (118.160.35.51 台湾), 06/16/2024 18:13:42

27^F：→ narukaza: 这预算怎麽会是选INTEL，连垃圾佬都不 114.34.174.204 06/16 18:23

28^F：→ narukaza: 捡的东西(X 114.34.174.204 06/16 18:23

29^F：→ narukaza: EPYC 7002 7003对岸捡不是随便都比W5-3 114.34.174.204 06/16 18:23

30^F：→ narukaza: 435好吗，你看我刚捡的7K62单颗都吊打3 114.34.174.204 06/16 18:23

31^F：→ narukaza: 435...你这预算都可以组双路了吧 114.34.174.204 06/16 18:23

当初看上那颗是因为是 8 通道 DDR5 OAO

32^F：推 FXW11314: 不是，你都已经研究到知道这玩意儿很吃 42.73.135.226 06/16 18:31

33^F：→ FXW11314: memory bandwidth 了怎麽还会想用CPU跑 42.73.135.226 06/16 18:31

34^F：→ FXW11314: ？DDR跟GDDR是可以差一个数量级的欸 42.73.135.226 06/16 18:31

35^F：推 Ghosts: 3090x4 + nvlink(非必要) 最简单 140.118.155.56 06/16 18:35

36^F：→ Ghosts: 价格也不会到无法负担，只是二手风险高 140.118.155.56 06/16 18:35

37^F：→ Ghosts: llama.cpp的问题是高并发会输vllm 140.118.155.56 06/16 18:35

38^F：→ Ghosts: 除非要用cpu+gguf 4bit之类的模型 140.118.155.56 06/16 18:35

39^F：→ Ghosts: 不然个人偏好还是vllm+gpu 140.118.155.56 06/16 18:35

40^F：→ Ghosts: 然後12t/s超慢，显卡随便都能破百以上 140.118.155.56 06/16 18:37

41^F：推 FXW11314: 再说即使只跑推理本质上还是一堆矩阵运 42.73.135.226 06/16 18:40

42^F：→ FXW11314: 算，GPU还是比CPU有优势 42.73.135.226 06/16 18:40

确实，之後也找一些二手卡来试试看多卡好了

43^F：嘘 jeffguoft: 这排版没人嘘？ 49.159.249.60 06/16 18:44

※ 编辑: sachialanlus (118.160.35.51 台湾), 06/16/2024 18:45:16 ※ 编辑: sachialanlus (118.160.35.51 台湾), 06/16/2024 18:47:21

44^F：→ sachialanlus: 感谢大家的建议，真的看到好多之前 118.160.35.51 06/16 18:55

45^F：→ sachialanlus: 没有注意的盲点。我想我应该会先试 118.160.35.51 06/16 18:55

46^F：→ sachialanlus: 试看租高阶 CPU 和多卡的机器来比较 118.160.35.51 06/16 18:56

47^F：→ sachialanlus: 看看，如果效能差异很明显的话就直 118.160.35.51 06/16 18:56

48^F：→ sachialanlus: 接买多卡来组了。感谢大家~ 118.160.35.51 06/16 18:56

49^F：推 AIRURU: 用最丐的3060测试堆vram也比cpu快多了，70 59.126.120.156 06/16 19:35

50^F：→ AIRURU: B-Q4 59.126.120.156 06/16 19:35

51^F：→ AIRURU: 预算够就直上两张4090比较实在 59.126.120.156 06/16 19:35

52^F：→ AIRURU: http://i.imgur.com/yvoSQLW.jpg 59.126.120.156 06/16 19:35

53^F：→ AIRURU: http://i.imgur.com/ScvLEEh.jpg 59.126.120.156 06/16 19:35

54^F：推 aegis43210: 推论要用支援AMX指令集的CPU 223.137.30.114 06/16 20:49

55^F：推 aegis43210: 不然就要模型有支援老黄的推论单元 223.137.30.114 06/16 20:54

56^F：→ aegis43210: EPYC又不支援AMX，最差选择 223.137.30.114 06/16 20:55

57^F：推 jeff85898: 除非是对资料隐私有需求不然自己架LLM 111.253.44.161 06/16 21:16

58^F：→ jeff85898: 做推论电脑和冷气电费、噪音加一加成 111.253.44.161 06/16 21:16

59^F：→ jeff85898: 本太高了 111.253.44.161 06/16 21:16

60^F：→ jeff85898: http://i.imgur.com/JHIn78E.jpg 111.253.44.161 06/16 21:16

61^F：推 jeff85898: 啊如果真的要入坑就对岸捡一组EPYC组多 111.253.44.161 06/16 21:27

62^F：→ jeff85898: 卡或是用ARM Mac跑也许会比较安静省电 111.253.44.161 06/16 21:27

63^F：→ nemo33: AWS EC2 G5/G6 跑 inference 118.169.226.32 06/16 21:49

64^F：推 ClixTW: 我跑Commamd R，记忆体没爆还是慢到无法 101.136.14.4 06/16 22:41

65^F：→ ClixTW: 接受（大概每秒1Token），处理器也跑不满 101.136.14.4 06/16 22:41

66^F：→ ClixTW: ，还是给VRAM跑吧 101.136.14.4 06/16 22:41

67^F：推 shiauber: 要塞70b的就建议直上租借了... 1.161.209.244 06/16 23:26

68^F：→ shiauber: 70b 也只是入门 1.161.209.244 06/16 23:26

69^F：→ shiauber: 刚刚看到老黄推出了 340b 1.161.209.244 06/16 23:26

70^F：→ shiauber: 稍微看了一下要inference 1.161.209.244 06/16 23:26

71^F：→ shiauber: 至少两张 A100 or 一张 h100 1.161.209.244 06/16 23:26

72^F：→ shiauber: 这段演化真的冲很快，还是是老黄说了算 1.161.209.244 06/16 23:30

73^F：→ shiauber: 总之多学多看实作真的可以省一点 1.161.209.244 06/16 23:30

74^F：→ shiauber: 论文现在是天天喷发 llama2才发布多久 1.161.209.244 06/16 23:30

75^F：→ shiauber: llama3就出来迭代太快了 1.161.209.244 06/16 23:30

76^F：→ DLHZ: 你这完全没研究的不如先去租个容器来用看看 111.71.213.112 06/17 00:04

77^F：→ DLHZ: 再说 111.71.213.112 06/17 00:04

78^F：推 jyhfang: 有个麻烦的地方现在这些模型和硬体超级 220.134.41.251 06/17 05:04

79^F：→ jyhfang: 快自己买硬体弄这些会不会很快就跟不上 220.134.41.251 06/17 05:05

80^F：→ jyhfang: 更好的模型的基本需求? 更高效率的硬体 220.134.41.251 06/17 05:05

81^F：→ jyhfang: 或是更棒的模型但基本需求也快速提升 220.134.41.251 06/17 05:06

82^F：→ jyhfang: 之类的这跟现在一般自组电脑对应的需求 220.134.41.251 06/17 05:07

83^F：→ jyhfang: 完全不同 220.134.41.251 06/17 05:07

84^F：推 ChouEita: 建议你好好研究模型Inference 是用什麽 101.12.19.127 06/17 09:06

85^F：推 RoarLiao: 现在喷发期除发为了赚钱不然真的不建议 61.216.44.21 06/17 11:08

86^F：→ RoarLiao: 为了兴趣砸大钱 61.216.44.21 06/17 11:08

87^F：推 RoarLiao: 然後所有人都在搞gpu的项目为什麽要自己 61.216.44.21 06/17 11:10

88^F：→ RoarLiao: 想绕过去用cpu搞自己.... 61.216.44.21 06/17 11:11

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

PC_Shopping 板

[闲聊] LLM 推理用机器

热门看板

赞助商连结