作者neo5277 (I am an agent of chaos)
看板Stock
标题[心得] 终端AI的时代来临了
时间Tue Apr 7 00:37:00 2026
有影片好读版
https://reurl.cc/7EkLDD
GOOGLE 真的做了一件很可怕的事情。
可怕的地方,不是它又发了一个更大的模型,也不是再盖一座更大的资料中心,而是它正
在把生成式 AI 的主战场,从云端慢慢搬到终端。Google AI Edge Gallery 已经公开把
「离线、在装置上、直接跑开源模型」这件事做成可下载、可体验、可验证的产品展示;
Google AI Edge 的 LLM Inference API 也明确把「完全在装置上执行 LLM」列为正式能
力,Gemma 4 与 Gemma 3n 则持续朝手机、平板、笔电这类 everyday devices 最佳化。
这代表方向已经不是概念验证,而是平台层、模型层、工具链三条线一起往前推。
我自己的判断,是这个趋势已经过了「会不会发生」的阶段,进入「什麽时候大规模落地
」的阶段。我使用 2015 年的 Lenovo Y700、16GB RAM、GTX 960 4GB,实测 Gemma 4
E2B / E4B 在量化後仍有不差的推论速度;另一边,用 Samsung S24 Ultra 测试(有NPU
,12g记忆体) Google AI Edge Gallery,体感速度如影片我没有使用影片加速。
这两个测试的共同讯号很清楚:只要模型够小、量化够深、执行框架够贴近硬体,很多过
去
赖云端 GPU 的任务,现在已经能在消费级终端本地完成。S24 Ultra 这类手机本身也已
经把 NPU 作为卖点之一,Google 端则直接提供 on-device generative AI 的展示与
API,这不是单点突破,而是供应链上下游开始对齐。
模型蒸馏技术相当成熟,剪接嫁支能力,基本不是难事,这也是模型虽然小,却一定程度
上可以五脏俱全,不是五技而穷的结果。
以现代科技的迭代速度,我会说三年内终端随身 AI 助理几乎是必然,因为经济诱因已
经足够强。七巨头过去两年把 AI 的资本支出拉到前所未有的水位:Meta 2025 年全年资
本支出达 722.2 亿美元;Microsoft 在 2025 会计年度第四季单季资本支出就达 242 亿
美元;Alphabet 已预告 2026 年资本支出将落在 1750 亿到 1850 亿美元;Amazon 也已
公开表示 2025 年资本支出提高到 1000 亿美元,且绝大部分投入 AI 资料中心。
这些数字说明,云端推理需求确实还在暴增;但也正因为暴增,云端才更需要把一部分工
作卸载到用户手上的装置。只要能把摘要、意图辨识、OCR、翻译、个人知识整理、UI 操
作代理这类高频任务切到本地端,云端就能把昂贵算力留给更长上下文、更大模型、
更复杂的多代理工作。
从资金回收角度看,终端 AI 不是云端的对手,而是云端资本支出的缓冲器。
这也是 Google 这一步真正厉害的地方。它不是只做模型,而是同时做模型、装置端推论
框架、展示应用与开发入口。
对使用者来说,AI Edge Gallery 把「本地模型其实已经能用」这件事直接变成体感;
对开发者来说,LLM Inference API 与 LiteRT-LM 把部署门
槛往下压。当工具链成形,真正的竞争就不再只是谁的基础模型分数高,而是谁能更快把
能力下放到手机、平板、笔电、车机、眼镜、工控设备与家用装置。
如果有认识台湾谷歌的人可以内推我吗? XD 我可以去打杂
再看技术面,量化技术正在把这件事推到更现实的阶段。前面提到的本地测试之所以成立
,核心就在量化。低 bit 权重早已不是新题目,但现在更值得注意的是 KV cache 压缩
。Google Research 今年公开的 TurboQuant,主打在几乎不损失精度的前提下,大幅压
缩模型大小与 KV cache;官方直接把它定位为支援 KV cache compression 与向量搜寻
的高效率压缩方法。
若这类方法进一步成熟并被主流推论框架吸收,终端装置的瓶颈就不再只是权重能不能塞
进去,而是长上下文能不能维持、记忆体能不能撑住、延迟能不能压
低。这会直接改写本地 AI 的可用范围。过去手机本地 AI 常常只能做短任务,接下来则
可能走向真正的常驻式助理。
想像一下,你有像银河飞龙 star trek 毕凯舰长胸前的装置(这样会不会有点暴露年纪?
或是 HALO CORTANA 真正能透过装置上感测器,然後本地运行的AI模型,只有特殊高算力
场景才要连上大脑。那可以帮你处理多少事情?
股点来了
从硬体演进来看,未来三到五年最值得注意的不是单纯「GPU 更大」,而是记忆体阶层会
被重新设计。手机 SoC、NPU、记忆体、封装内高频宽记忆体、PC 端更高容量 LPDDR /
CAMM2、边缘装置上的低功耗加速器,会逐渐围绕同一件事最佳化:如何让 2B、4B、8B
级别模型在可接受的功耗内常驻,并且支援多模态输入。
Gemma 3n 已经明确强调per-layer parameter caching 与 MatFormer 这类降低计算与
记忆体需求的设计,代表模型架构本身也开始为终端设备重写。未来不是只有硬体堆料
,而是模型、量化、runtime、记忆体控制器、OS 调度一起往「本地可常驻」靠拢。
技术正在浓缩,精炼,可以说是进入真正软硬整合的蒸馏状态。
因此,边缘 AI 不只会落在旗舰手机。树莓派、FPGA、低功耗工控板,甚至各种专用
MCU + NPU 模组,都有机会承接某一层 AI 任务。这里要分清楚:它们未必适合跑完整的
通用聊天模型,但非常适合承接「前处理、本地侦测、事件判断、语音唤醒、OCR、简单
代理、短上下文推理」等工作。Google AI Edge 目前已把生成式 AI、视觉、文字、音讯
都纳入同一套边缘开发叙事;而装置端增量训练也已经出现在官方文件中。
这代表边缘设备未来不只是推理端,还可能具备有限度的个人化能力,也意味着统用标准
格式传递的出现,早期的xml,网路时代的json,或是二进位的msgpack,甚至更新的规格都
会快速出现。
如果把资金回收与实际应用放在一起看,未来最合理的投资方向,不是再追一轮只服务资
料中心的单一叙事,而是转往终端整合。原因很简单:终端 AI 比云端 AI 更接近现金流
。手机、PC、车机、工业设备、医疗终端、零售装置、安防摄影机、穿戴设备,每一个品
类都能把 AI 变成实际卖点,进而带动晶片、记忆体、模组、作业系统、应用软体与服务
订阅。
云端是必要基础设施,但终端才是最容易把模型能力转成大量出货与长期黏着的地
方。这不是说资料中心不重要,而是下一轮回收率更高的竞争,很可能发生在谁能把 AI
变成「随身、离线、低延迟、可私有化」的日常能力。这一点,Google 现在其实已经先
走了。
我的推论很直接:三年内,本地端随身 AI 助理大规模出现,机率极高;五年内,终端装
置的 AI 能力会像相机 ISP、神经网路引擎、5G modem 一样,从加分项变成标配。真正
值得看的公司与产品,不会只是在资料中心买到最多 GPU 的那一批,而是能把模型压缩
、记忆体管理、功耗控制、端云协同与实际场景整合在一起的那一批。在老笔电和旗舰手
机上看到的体感,不是例外,而是前兆。
从模型,到服务,到装置GOOGLE 现在这一步跟把安卓放出去是一样....
以我们开发者来说,终端可以应用的场景太多太多了。
但我还是会觉得会有大修正,因为目前从上到下,可以整合所有的
只有GOOGLE 他只有输B端应用跟服务,待在业界的都知道,GOOGLE最近很用力再冲这块
真的是不得不佩服老巴跟他的团队.....
--
WHY SO SERIOUS???
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.162.142.99 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1775493425.A.D22.html
1F:→ tamama000 : 可以请AI帮我总结10字以内吗 04/07 00:38
※ 编辑: neo5277 (1.162.142.99 台湾), 04/07/2026 00:39:52
卖掉其他六巨头,等崩盘後全力买GOOGLE
台湾就买可以拿到他代工的跟GG
※ 编辑: neo5277 (1.162.142.99 台湾), 04/07/2026 00:40:47
2F:推 s8911090 : 内文都在讲google 但语气却是chatgpt04/07 00:41
3F:→ Brioni : PC黄金时代再录音?04/07 00:42
4F:→ Brioni : 再临04/07 00:42
5F:推 benen : google最近很勤劳啊,不是还大力推荐自家若有老电04/07 00:44
6F:→ benen : 脑,可以改用chrome os再战几年 04/07 00:44
7F:→ perlone : 记忆体又要缺货了04/07 00:45
8F:推 sdbb : 欧印GGLL最快04/07 00:46
9F:推 miloisgood : 这样机器人会先飞天吧04/07 00:47
基本上用一个还可以得有NPU的旗舰机可以写app 来拓展的话
或着pi系列 做核心不难,难的是电机持久度,跟瞬时反应
10F:推 bcismylove : 总结 欧印GOOGLE04/07 00:49
11F:推 niniko : 好,买GOOX04/07 00:49
※ 编辑: neo5277 (1.162.142.99 台湾), 04/07/2026 00:50:57
12F:推 ga278057 : 有终端机器人吗04/07 00:52
13F:推 offstage : 可以请AI告诉我明天要买涨还是买跌嘛04/07 00:53
14F:推 brightest : 问题是壹般人还是不知道ai除了能看废片能干嘛04/07 00:53
15F:推 jack55777100: 总结就是google是神要欧印04/07 00:54
16F:→ JoeyChen : 照AI社群的开发热情 所有的可能性都会比预测的快吧 04/07 00:55
17F:推 bobboy8755 : 可以离线画色图吃到饱的意思吗?(兴奋04/07 01:00
生成图还要一下下 扩散模型比较麻烦
18F:→ kuninaka : 又是AI生成的文章04/07 01:01
※ 编辑: neo5277 (1.162.142.99 台湾), 04/07/2026 01:02:38
19F:推 SodaMan : 梦里都有,成本不是消失是转嫁到其他费用 04/07 01:06
20F:→ bollar7 : google要涨了吗,好像没... 04/07 01:06
21F:→ SodaMan : 如果你理解AI 架构,就不会写出这种结论 04/07 01:07
纯推论应该还好 终端版本跟OS一样持续更新释出就好
22F:推 BC0710 : 可以考虑一下GPU+WEKA/VAST 只能说都还未必谁赢 但 04/07 01:08
23F:→ BC0710 : 饼越来越大是一定 04/07 01:08
24F:→ aloness : 终端应用,尤其手持产品的天敌就是耗电量 04/07 01:09
(鼓掌
※ 编辑: neo5277 (1.162.142.99 台湾), 04/07/2026 01:11:29
25F:→ aloness : 下一个问题则是权限,谁会喜欢背景程式吃掉一大堆04/07 01:12
26F:→ aloness : 资源,跟BT下载不会给手持3C一样概念04/07 01:12
※ 编辑: neo5277 (1.162.142.99 台湾), 04/07/2026 01:17:01
27F:→ Obama19 : 想太多了 终究只是个chatbot04/07 01:15
openclaw可以做到的,我都可以开发後在手机上做到一样的事情,光是Google AI edge
garlley就开放了下面这些给你体验了
https://i.mopix.cc/1cdBfD.jpg
连控制装置都有
介接local api就好
※ 编辑: neo5277 (42.71.96.172 台湾), 04/07/2026 01:21:49
28F:嘘 strlen : 第一天就载了 以一般消费者能装的版本 基本没屁用04/07 01:29
29F:→ strlen : 又不是人人标配5090 就算是5090 模型也跟脑残一样 04/07 01:29
这跟5090没有关系啊
光是 s24u 也满普通的
30F:→ strlen : 更别说agent功能 想太多 再等5年04/07 01:29
31F:→ SodaMan : 推论的基础是背後的参考资料,你无法带着庞大的资 04/07 01:30
32F:→ SodaMan : 料落地,那就是假像而已04/07 01:30
蒸馏跟微调剪枝以後的slm完全就是本体
....哪里需要什麽参考资料,这跟RAG不一样
这是已经训练好,蒸馏各种功能的模型
,你不会在手机上做微调的,手机上要实作
RAG也不会难,以我这支手机512g的硬碟空间可以放专属的KM了,终端场景需要什麽庞大
的资料,还是没有办法想像,最多做个即时联网或是连网的资料存取api透过网路加载
跟google地图一样而已....
※ 编辑: neo5277 (1.162.142.99 台湾), 04/07/2026 01:39:32
33F:推 xzero0911 : 5090跑31B VRAM还不够用 挂OLLAMA要64G 04/07 01:37
34F:→ xzero0911 : 26B效果倒是真的不错回应又快04/07 01:37
70%的商业应用场景其实不需要模型的多数能力啊,这点终端上本来有的能力结合起来这
个AI核心就好了。
35F:→ yunf : 浪费时间写那麽多废话干嘛?04/07 01:37
因为玩的满兴奋的
※ 编辑: neo5277 (1.162.142.99 台湾), 04/07/2026 01:41:56
36F:→ yunf : 续航力问题没办法解决讲再多你也只是空谈 04/07 01:40
37F:推 furture84 : 有消息称google的演算法是抄袭某研究生,而研究生04/07 01:48
38F:→ furture84 : 的演算法是开源的04/07 01:48
39F:→ furture84 : Rabbit 04/07 01:48
40F:→ furture84 : RabitQ 04/07 01:48
41F:→ SodaMan : 不要离题了,模型蒸馏目的是节省算力成本,这不代 04/07 01:49
42F:→ SodaMan : 表着可以用低成本建置地端的AI ,知识蒸馏只是走了04/07 01:49
43F:→ SodaMan : 捷径并不是舍去成本04/07 01:49
44F:推 lnonai : MTK:04/07 01:52
45F:推 magic543 : 实际测试过 小模型没多大屁用 直接用线上AI就可以04/07 02:00
46F:→ magic543 : 真的要办公 还是需要PC 唯一重点是记忆体真的被错杀04/07 02:01
47F:嘘 haley80208 : 整天吹 所以发布会的即时翻译什麽时後能做好 04/07 02:03
48F:推 waitrop : 为何会提到蒸馏?谷歌这技术跟edge 端AI 跟蒸馏完 04/07 02:04
49F:→ waitrop : 全没有关系,简单说就是模型小到能在edge 执行,效04/07 02:04
50F:→ waitrop : 能又超强,跟蒸馏无关04/07 02:04
前两代都是蒸馏的啊...
都是从teacher学习部分能力啊..
51F:推 hc20016 : 结论就是 需要很多很多的记忆体 04/07 02:06
52F:→ hc20016 : 记忆卡蛙团结强大 一张不卖04/07 02:06
※ 编辑: neo5277 (1.162.142.99 台湾), 04/07/2026 02:08:53
53F:推 qoojo2002 : 现在买甲骨文很便宜04/07 02:29
54F:推 saito2190 : 我觉得边缘装置AI重点会在Agent能力跟指令服从性,04/07 02:35
55F:→ saito2190 : 他本身不用太聪明没关系,反正Skill时代都是拿已经 04/07 02:35
56F:→ saito2190 : 写好的Skill给他跑,他只要能在正确的时间调用正确 04/07 02:35
57F:→ saito2190 : 的工具,那就能完成大部分的任务,真正需要深度思 04/07 02:35
58F:→ saito2190 : 考+研究的再去调用外部大模型就好 04/07 02:35
59F:嘘 holysong : 一只手机20万? 04/07 02:43
60F:推 nineflower : 终端AI现在就能做阿,很占地方而已,手机终端还要等 04/07 02:51
61F:→ nineflower : 硬体奇异点突破 04/07 02:51
62F:推 bala045 : 不是oooo 而是xxxx 可不可以让你AI 不要再生这种句 04/07 02:52
63F:→ bala045 : 子 04/07 02:52
64F:→ zero790425 : 在吹估狗却用别家AI填充内文 bad 04/07 03:07
65F:→ sonatafm2 : 所以没那麽快落实到手持装置的 04/07 03:15
66F:推 TameFoxx : 无论怎搞 你的电费都还是比云端API还贵 04/07 03:28
67F:→ budaixi : == 消费性电子股价都跌烂了,就你在吹 04/07 03:44
68F:→ kingofsdtw : 增加手机耗电吗? apple笑而不语 04/07 04:08
69F:嘘 space20021 : 你这篇也是AI写的 04/07 04:22
70F:→ CH1SIR : 置板凳!04/07 04:35
71F:→ CH1SIR : 五年後再回来这篇04/07 04:35
72F:推 kkman2 : 觉得迟早的事情 04/07 04:56
73F:→ mtmmy : Mac Mini 16G RAM跑Gemma 4还是好吃力04/07 05:16
74F:推 breathair : 谷歌这版本基本就是给开发者玩的,看能玩出什麽花样04/07 05:23
75F:→ breathair : ,有人调整权重让他接受一些恶意指令(骇客攻击),04/07 05:23
76F:→ breathair : 有人把它拿进公司封闭环境里面做工作流自动化,绑定04/07 05:23
77F:→ breathair : 开发者生态,目的是为了抢占开发者生态为目的 04/07 05:23
78F:→ breathair : 日後终端算力肯定越来越高,模型越做越小。那个时候 04/07 05:23
79F:→ breathair : 这东西就有机会成为可以装在所有终端的安卓2.0(绝 04/07 05:23
80F:→ breathair : 对不是现在,现在在手机上还不如免费版的Gemini) 04/07 05:23
81F:→ breathair : 我买了许多谷歌,但谷歌现阶段真不看这东西,他最重 04/07 05:25
82F:→ breathair : 要的业务一样是广告跟大模型能力来保护自己的搜索业 04/07 05:25
83F:→ breathair : 务,这只是众多布局中的一个细分赛道 04/07 05:25
84F:推 cy168 : 没有open ai,google 当初并不想推llm ai,因为商 04/07 05:36
85F:→ cy168 : 业获利整个被侵蚀。现在又准备建构让大家离不开的 04/07 05:36
86F:→ cy168 : 生态链了。 04/07 05:36
87F:嘘 alice1967 : 共享的资源还是最经济实惠的,终端只是最後输出跟显 04/07 05:37
88F:→ alice1967 : 示工具,别想太多! 04/07 05:37
89F:→ guanting886 : SLM配点RAG最多只能做到志工妈妈角色 04/07 06:13
90F:→ guanting886 : 能做小就几个方向 缩小参数量、量化精度损失的部分 04/07 06:17
91F:→ guanting886 : 就你看你调效的取舍 04/07 06:17
92F:→ guanting886 : 上下文的能吃的量就决定他能做的事很有限了04/07 06:18
93F:推 vovovolibear: 你的眼光很棒,只是目前我们连夏天有没有油可以发电04/07 06:55
94F:→ vovovolibear: 都不知道 04/07 06:55
95F:推 zenixls2 : meta的llama当初被吹多高,你真的觉得本地端模型炒04/07 07:14
96F:→ zenixls2 : 得起来?04/07 07:14
97F:→ zenixls2 : esp32接大模型表现比Mac m3,4跑本地端模型好时,你04/07 07:20
98F:→ zenixls2 : 还想用本地端吗?04/07 07:20
99F:推 mdkn35 : 早就有了吧 就准确率问题 04/07 07:24
100F:推 efkfkp : 所以google到底还能不能买?有翻倍的可能吗?还是股 04/07 07:31
101F:→ efkfkp : 价就这样了 04/07 07:31
102F:→ wed1979 : 算力中心一直建,是有什麽应用已经落地需要大算力.. 04/07 07:34
103F:→ wed1979 : .sora不是烧完了 04/07 07:34
104F:→ CYL009 : 之前豆包手机就是了 只不过会被其他大企业抵制 看谷 04/07 07:38
105F:→ CYL009 : 歌怎麽玩 04/07 07:38
106F:嘘 gaussjordan : 你哪位 04/07 07:45
107F:推 solarpower : 感谢分享与测试~谢谢 04/07 07:47
108F:推 john801110 : 阿斯拉? 04/07 07:52
109F:推 roiop710 : 好的看来压身家冲记忆体了 04/07 07:52
110F:嘘 fajita : 吹成这样,看了都觉得好笑,跟那个死脸AI一样 04/07 07:54
111F:嘘 jas258 : 这种 这不是…而是的文体是不是都是AI啊 04/07 07:59
112F:推 secrectlife : 好像废话太多了 04/07 08:11
113F:推 ahg : 普遍消费者用与不用的差别?这渗透率跟商转能这麽 04/07 08:12
114F:→ ahg : 乐观?04/07 08:12
115F:推 CCH2022 : 要多久才能twitch YouTube直播做到即时翻译04/07 08:18
116F:嘘 alice1967 : 你要知道公司靠什麽收费,是广告不是手机,既然如此 04/07 08:26
117F:→ alice1967 : ,搞终端就是傻子,没有收入搞个屁!不要净用AI写幻04/07 08:26
118F:→ alice1967 : 想文04/07 08:26
119F:推 ikariamman : 台湾早有啦04/07 08:33
120F:嘘 Porops : 有够AI的文章,业内的根本不可能有这样的结论04/07 08:45
121F:→ ma721 : 电池没解决前都不可能 04/07 08:53
123F:推 orange7986 : 我用 Mac Mini m4 pro 跑8B 模型很快但很笨 30B跑 04/07 09:15
124F:→ orange7986 : 超慢…还是用云端好 04/07 09:15
绝大多数的需求,只需要意图辨识
就够了剩下都是其他终端上的整合
大模型也几乎都是这样做的,差别在於专业领域的知识蒸馏,守备范围
125F:推 joygo : 没喷就是跑起来其实还好 04/07 09:22
126F:→ joygo : 出了之後就下载的心得是 如果你拿去买显卡的钱 调 04/07 09:23
127F:→ joygo : 阅应该很够了 老黄越出token只会越便宜 04/07 09:23
128F:嘘 dhm520 : 废话太多 04/07 09:50
129F:→ xiemx : 好吧先看看 04/07 09:55
※ 编辑: neo5277 (1.162.139.18 台湾), 04/07/2026 09:59:49
130F:推 ACDC69 : 欸婆,meta,喔喷ai 全蛋雕了 04/07 10:15
131F:嘘 rumblefish : 喔 04/07 11:14
132F:推 atari77 : 可以养电子女秘书了? 04/07 11:51
133F:嘘 xoyeh168 : 超虾,终端时代=免费=赚不到钱,顶多卖硬体的可以赚 04/07 13:52
134F:嘘 edison106 : 所以google到底要涨了没 04/07 14:18
135F:→ hannah5269 : 谷歌工程师大发财! 04/07 14:33
136F:推 lee28119 : Ptt发文拜托不要用AI写啦 又不是FB要拼流量产出… 04/07 15:06
137F:→ samm3320 : 呃你有去装过Gemma4来用吗 04/07 15:41
138F:→ bearq258 : 老机器跑低参数ai还是不能用,连理解命令正确率还是 04/07 17:29
139F:→ bearq258 : 不如多参数,小学生等级与硕士等级差异 04/07 17:29
140F:嘘 Lhmstu : 就问怎麽赚钱? 04/07 18:54
141F:→ DVE : 要找人内推就附上英文履历啊,以你的学历想进Google 04/07 20:01
142F:→ DVE : 之前的工作履历应该有些亮点吧。 04/07 20:01