作者cosmo7897 (普莱儿)
看板Stock
标题Re: [心得] AI需求是供应商精心设计好的套路
时间Sun Mar 22 08:59:21 2026
最近在想一个跟原po类似的问题
刚好也跟 AI 讨论了一阵子,整理成一些自己的观察
先抛结论:
这不太像什麽已经被设计好的套路,比较像是「科技树还没点到那里」
目前 AI 发展其实有两条很明显的趋势在同时发生:
一个是大模型持续变强,但边际效益开始下降
模型变大还是会变强,但提升的幅度,跟投入的算力、成本相比,没有以前那麽划算
另一个是小模型越来越强
透过 distillation、quantization,还有针对特定任务优化
小模型其实已经可以 cover 很多实用场景
所以就出现一个有趣的可能性:
未来「训练大模型」这件事,可能还是只会集中在少数几间大公司手上
但「推理」这件事,不一定需要一直依赖超大模型
有没有可能变成 把任务拆开,交给多个小模型,在不同装置上协作完成?
这个概念其实有点像公司运作:
公司不会全部都请通才,而是不同领域的专才组成不同 team,一起把事情完成
对应到模型也是一样:
现在的大模型,其实有点像把各种能力(语言、逻辑、知识)全部塞在一起
但理论上,这些能力是可以被拆分、模组化的
问题就出在一个关键点:latency(延迟)
如果是一个大模型,你问问题,它可以一次 forward 就给答案
但如果是多个小模型协作,就会变成:
模型 A → 模型 B → 模型 C
中间需要传递资讯、同步状态,甚至「讨论」
这个过程的延迟,如果太高,就完全不可行
所以我现在的理解是:
未来架构会不会改变,关键不在模型大小,而在 latency 能不能压下来
如果有一天:
- 装置间通讯延迟大幅下降(硬体 / network)
- 模型之间的协作机制变成熟(software / protocol)
那多小模型协作,才有可能真的落地
到那个时候,整个生态可能会有一些变化:
- GPU / memory 还是很重要,但需求不一定是「无限膨胀」
- 能源问题也可能被部分缓解(因为计算被分散)
- 边缘装置(手机、桌机、笔电、车机、甚至穿戴装置)的算力不再闲置
现在其实是:
我们在用云端 server 跑 AI,
但身边一堆装置的算力都是闲置的
未来有没有可能变成:
这些装置一起参与推理,变成一种分散式 AI?
当然,这条路现在还卡在 latency、稳定性、还有系统复杂度,但我相信已经有人在研究了
所以短期内,大模型 + 云端还是主流
但如果这些问题被解掉,现在这种「集中式算力 + 超大模型」的模式,未必是唯一解
大概就是这样,算是一点还没成熟的想法,抛出来看看大家怎麽想
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 118.168.146.181 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1774141163.A.E2A.html
1F:推 Shiang1225 : 这篇正解 我们看太短了 明明就是要10年20年的东西 03/22 09:06
2F:推 sceleton : 历史上来说就是这样。Mainframe => PC => server => 03/22 09:09
3F:→ sceleton : smartphone 03/22 09:09
4F:推 CKRO : 这个想法很有意思 03/22 09:25
5F:推 masala : 终端产品的算力被架空了,沦为一个收发器而已 03/22 09:29
6F:→ bnn : 你这个就Edge想干的 迟早的事 但现在没必要 03/22 09:38
7F:→ bnn : 因为现在架Edge你付出的就你说的额外成本不如扩大dc 03/22 09:39
8F:→ bnn : 因为现在能回收的反而是小利基型特化 先证明能回收 03/22 09:40
9F:→ bnn : Edge是要到普及人手一支能回收的通用p2p-like串接 03/22 09:41
10F:→ bnn : 而目前对资料传输的需求连短距离都不能忍铜线要CPO 03/22 09:42
11F:→ bnn : 你要进步到无线能传低功耗大资料量 科技树还没点到 03/22 09:43
12F:→ bnn : 就跟现在你可以几张显卡自架local(一台Edge主机) 03/22 09:44
13F:→ bnn : 但显然这是上面的PC阶段 距离smartphone还很远 03/22 09:44
14F:→ bnn : 要解决完缩小 能耗 散热 传输一堆问题 03/22 09:45
15F:→ layer0930 : 这个目前困难性太高了,还有成本问题 03/22 09:46
16F:→ Kayusumi : 目前一些手机上的ai运用就算是轻量化模型吧 03/22 09:54
17F:推 cphe : 一定会这样吧 只能说AI才刚起步,硬体无法满足 03/22 10:29
18F:→ cphe : 需求,未来一定会有需求缓和下来回归正常的时候 03/22 10:29
19F:→ cphe : 至於Edge AI目前完全不够力 03/22 10:29
20F:→ potionx : 两者会并行 依照需求决定你使用什麽装置 03/22 10:43
21F:推 CGDGAD : 现在不是有混合专家模型吗?专门的问题会导向专门 03/22 11:16
22F:→ CGDGAD : 的推理路径增加运算效率 03/22 11:16
23F:→ paimin : 结果你的小模型比大模型还废 成本还高 继续用大的 03/22 13:05
24F:→ stocktonty : 你是跟什麽等级的AI讨论要先厘清 03/22 13:08
25F:推 japan428 : 你讲的就是边缘ai吧,其实Apple这些行动装置厂商都 03/22 15:24
26F:→ japan428 : 着手布局了啊 03/22 15:24
27F:→ japan428 : 但这跟CSP会有巨大需求不冲突,因为现在光看openc 03/22 15:28
28F:→ japan428 : law吃token 的量就很惊人 03/22 15:28
29F:推 mdkn35 : 个人觉得gemini已经是这样了 要画图才切banana 03/23 06:54