作者neo5277 (I am an agent of chaos)
看板Stock
標題[心得] 終端AI的時代來臨了
時間Tue Apr 7 00:37:00 2026
有影片好讀版
https://reurl.cc/7EkLDD
GOOGLE 真的做了一件很可怕的事情。
可怕的地方,不是它又發了一個更大的模型,也不是再蓋一座更大的資料中心,而是它正
在把生成式 AI 的主戰場,從雲端慢慢搬到終端。Google AI Edge Gallery 已經公開把
「離線、在裝置上、直接跑開源模型」這件事做成可下載、可體驗、可驗證的產品展示;
Google AI Edge 的 LLM Inference API 也明確把「完全在裝置上執行 LLM」列為正式能
力,Gemma 4 與 Gemma 3n 則持續朝手機、平板、筆電這類 everyday devices 最佳化。
這代表方向已經不是概念驗證,而是平台層、模型層、工具鏈三條線一起往前推。
我自己的判斷,是這個趨勢已經過了「會不會發生」的階段,進入「什麼時候大規模落地
」的階段。我使用 2015 年的 Lenovo Y700、16GB RAM、GTX 960 4GB,實測 Gemma 4
E2B / E4B 在量化後仍有不差的推論速度;另一邊,用 Samsung S24 Ultra 測試(有NPU
,12g記憶體) Google AI Edge Gallery,體感速度如影片我沒有使用影片加速。
這兩個測試的共同訊號很清楚:只要模型夠小、量化夠深、執行框架夠貼近硬體,很多過
去
賴雲端 GPU 的任務,現在已經能在消費級終端本地完成。S24 Ultra 這類手機本身也已
經把 NPU 作為賣點之一,Google 端則直接提供 on-device generative AI 的展示與
API,這不是單點突破,而是供應鏈上下游開始對齊。
模型蒸餾技術相當成熟,剪接嫁支能力,基本不是難事,這也是模型雖然小,卻一定程度
上可以五臟俱全,不是五技而窮的結果。
以現代科技的迭代速度,我會說三年內終端隨身 AI 助理幾乎是必然,因為經濟誘因已
經足夠強。七巨頭過去兩年把 AI 的資本支出拉到前所未有的水位:Meta 2025 年全年資
本支出達 722.2 億美元;Microsoft 在 2025 會計年度第四季單季資本支出就達 242 億
美元;Alphabet 已預告 2026 年資本支出將落在 1750 億到 1850 億美元;Amazon 也已
公開表示 2025 年資本支出提高到 1000 億美元,且絕大部分投入 AI 資料中心。
這些數字說明,雲端推理需求確實還在暴增;但也正因為暴增,雲端才更需要把一部分工
作卸載到用戶手上的裝置。只要能把摘要、意圖辨識、OCR、翻譯、個人知識整理、UI 操
作代理這類高頻任務切到本地端,雲端就能把昂貴算力留給更長上下文、更大模型、
更複雜的多代理工作。
從資金回收角度看,終端 AI 不是雲端的對手,而是雲端資本支出的緩衝器。
這也是 Google 這一步真正厲害的地方。它不是只做模型,而是同時做模型、裝置端推論
框架、展示應用與開發入口。
對使用者來說,AI Edge Gallery 把「本地模型其實已經能用」這件事直接變成體感;
對開發者來說,LLM Inference API 與 LiteRT-LM 把部署門
檻往下壓。當工具鏈成形,真正的競爭就不再只是誰的基礎模型分數高,而是誰能更快把
能力下放到手機、平板、筆電、車機、眼鏡、工控設備與家用裝置。
如果有認識台灣谷歌的人可以內推我嗎? XD 我可以去打雜
再看技術面,量化技術正在把這件事推到更現實的階段。前面提到的本地測試之所以成立
,核心就在量化。低 bit 權重早已不是新題目,但現在更值得注意的是 KV cache 壓縮
。Google Research 今年公開的 TurboQuant,主打在幾乎不損失精度的前提下,大幅壓
縮模型大小與 KV cache;官方直接把它定位為支援 KV cache compression 與向量搜尋
的高效率壓縮方法。
若這類方法進一步成熟並被主流推論框架吸收,終端裝置的瓶頸就不再只是權重能不能塞
進去,而是長上下文能不能維持、記憶體能不能撐住、延遲能不能壓
低。這會直接改寫本地 AI 的可用範圍。過去手機本地 AI 常常只能做短任務,接下來則
可能走向真正的常駐式助理。
想像一下,你有像銀河飛龍 star trek 畢凱艦長胸前的裝置(這樣會不會有點暴露年紀?
或是 HALO CORTANA 真正能透過裝置上感測器,然後本地運行的AI模型,只有特殊高算力
場景才要連上大腦。那可以幫你處理多少事情?
股點來了
從硬體演進來看,未來三到五年最值得注意的不是單純「GPU 更大」,而是記憶體階層會
被重新設計。手機 SoC、NPU、記憶體、封裝內高頻寬記憶體、PC 端更高容量 LPDDR /
CAMM2、邊緣裝置上的低功耗加速器,會逐漸圍繞同一件事最佳化:如何讓 2B、4B、8B
級別模型在可接受的功耗內常駐,並且支援多模態輸入。
Gemma 3n 已經明確強調per-layer parameter caching 與 MatFormer 這類降低計算與
記憶體需求的設計,代表模型架構本身也開始為終端設備重寫。未來不是只有硬體堆料
,而是模型、量化、runtime、記憶體控制器、OS 調度一起往「本地可常駐」靠攏。
技術正在濃縮,精煉,可以說是進入真正軟硬整合的蒸餾狀態。
因此,邊緣 AI 不只會落在旗艦手機。樹莓派、FPGA、低功耗工控板,甚至各種專用
MCU + NPU 模組,都有機會承接某一層 AI 任務。這裡要分清楚:它們未必適合跑完整的
通用聊天模型,但非常適合承接「前處理、本地偵測、事件判斷、語音喚醒、OCR、簡單
代理、短上下文推理」等工作。Google AI Edge 目前已把生成式 AI、視覺、文字、音訊
都納入同一套邊緣開發敘事;而裝置端增量訓練也已經出現在官方文件中。
這代表邊緣設備未來不只是推理端,還可能具備有限度的個人化能力,也意味著統用標準
格式傳遞的出現,早期的xml,網路時代的json,或是二進位的msgpack,甚至更新的規格都
會快速出現。
如果把資金回收與實際應用放在一起看,未來最合理的投資方向,不是再追一輪只服務資
料中心的單一敘事,而是轉往終端整合。原因很簡單:終端 AI 比雲端 AI 更接近現金流
。手機、PC、車機、工業設備、醫療終端、零售裝置、安防攝影機、穿戴設備,每一個品
類都能把 AI 變成實際賣點,進而帶動晶片、記憶體、模組、作業系統、應用軟體與服務
訂閱。
雲端是必要基礎設施,但終端才是最容易把模型能力轉成大量出貨與長期黏著的地
方。這不是說資料中心不重要,而是下一輪回收率更高的競爭,很可能發生在誰能把 AI
變成「隨身、離線、低延遲、可私有化」的日常能力。這一點,Google 現在其實已經先
走了。
我的推論很直接:三年內,本地端隨身 AI 助理大規模出現,機率極高;五年內,終端裝
置的 AI 能力會像相機 ISP、神經網路引擎、5G modem 一樣,從加分項變成標配。真正
值得看的公司與產品,不會只是在資料中心買到最多 GPU 的那一批,而是能把模型壓縮
、記憶體管理、功耗控制、端雲協同與實際場景整合在一起的那一批。在老筆電和旗艦手
機上看到的體感,不是例外,而是前兆。
從模型,到服務,到裝置GOOGLE 現在這一步跟把安卓放出去是一樣....
以我們開發者來說,終端可以應用的場景太多太多了。
但我還是會覺得會有大修正,因為目前從上到下,可以整合所有的
只有GOOGLE 他只有輸B端應用跟服務,待在業界的都知道,GOOGLE最近很用力再衝這塊
真的是不得不佩服老巴跟他的團隊.....
--
WHY SO SERIOUS???
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.162.142.99 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Stock/M.1775493425.A.D22.html
1F:→ tamama000 : 可以請AI幫我總結10字以內嗎 04/07 00:38
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 00:39:52
賣掉其他六巨頭,等崩盤後全力買GOOGLE
台灣就買可以拿到他代工的跟GG
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 00:40:47
2F:推 s8911090 : 內文都在講google 但語氣卻是chatgpt04/07 00:41
3F:→ Brioni : PC黃金時代再錄音?04/07 00:42
4F:→ Brioni : 再臨04/07 00:42
5F:推 benen : google最近很勤勞啊,不是還大力推薦自家若有老電04/07 00:44
6F:→ benen : 腦,可以改用chrome os再戰幾年 04/07 00:44
7F:→ perlone : 記憶體又要缺貨了04/07 00:45
8F:推 sdbb : 歐印GGLL最快04/07 00:46
9F:推 miloisgood : 這樣機器人會先飛天吧04/07 00:47
基本上用一個還可以得有NPU的旗艦機可以寫app 來拓展的話
或著pi系列 做核心不難,難的是電機持久度,跟瞬時反應
10F:推 bcismylove : 總結 歐印GOOGLE04/07 00:49
11F:推 niniko : 好,買GOOX04/07 00:49
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 00:50:57
12F:推 ga278057 : 有終端機器人嗎04/07 00:52
13F:推 offstage : 可以請AI告訴我明天要買漲還是買跌嘛04/07 00:53
14F:推 brightest : 問題是壹般人還是不知道ai除了能看廢片能幹嘛04/07 00:53
15F:推 jack55777100: 總結就是google是神要歐印04/07 00:54
16F:→ JoeyChen : 照AI社群的開發熱情 所有的可能性都會比預測的快吧 04/07 00:55
17F:推 bobboy8755 : 可以離線畫色圖吃到飽的意思嗎?(興奮04/07 01:00
生成圖還要一下下 擴散模型比較麻煩
18F:→ kuninaka : 又是AI生成的文章04/07 01:01
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:02:38
19F:推 SodaMan : 夢裏都有,成本不是消失是轉嫁到其他費用 04/07 01:06
20F:→ bollar7 : google要漲了嗎,好像沒... 04/07 01:06
21F:→ SodaMan : 如果你理解AI 架構,就不會寫出這種結論 04/07 01:07
純推論應該還好 終端版本跟OS一樣持續更新釋出就好
22F:推 BC0710 : 可以考慮一下GPU+WEKA/VAST 只能說都還未必誰贏 但 04/07 01:08
23F:→ BC0710 : 餅越來越大是一定 04/07 01:08
24F:→ aloness : 終端應用,尤其手持產品的天敵就是耗電量 04/07 01:09
(鼓掌
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:11:29
25F:→ aloness : 下一個問題則是權限,誰會喜歡背景程式吃掉一大堆04/07 01:12
26F:→ aloness : 資源,跟BT下載不會給手持3C一樣概念04/07 01:12
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:17:01
27F:→ Obama19 : 想太多了 終究只是個chatbot04/07 01:15
openclaw可以做到的,我都可以開發後在手機上做到一樣的事情,光是Google AI edge
garlley就開放了下面這些給你體驗了
https://i.mopix.cc/1cdBfD.jpg
連控制裝置都有
介接local api就好
※ 編輯: neo5277 (42.71.96.172 臺灣), 04/07/2026 01:21:49
28F:噓 strlen : 第一天就載了 以一般消費者能裝的版本 基本沒屁用04/07 01:29
29F:→ strlen : 又不是人人標配5090 就算是5090 模型也跟腦殘一樣 04/07 01:29
這跟5090沒有關係啊
光是 s24u 也滿普通的
30F:→ strlen : 更別說agent功能 想太多 再等5年04/07 01:29
31F:→ SodaMan : 推論的基礎是背後的參考資料,你無法帶著龐大的資 04/07 01:30
32F:→ SodaMan : 料落地,那就是假像而已04/07 01:30
蒸餾跟微調剪枝以後的slm完全就是本體
....哪裡需要什麼參考資料,這跟RAG不一樣
這是已經訓練好,蒸餾各種功能的模型
,你不會在手機上做微調的,手機上要實作
RAG也不會難,以我這支手機512g的硬碟空間可以放專屬的KM了,終端場景需要什麼龐大
的資料,還是沒有辦法想像,最多做個即時聯網或是連網的資料存取api透過網路加載
跟google地圖一樣而已....
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:39:32
33F:推 xzero0911 : 5090跑31B VRAM還不夠用 掛OLLAMA要64G 04/07 01:37
34F:→ xzero0911 : 26B效果倒是真的不錯回應又快04/07 01:37
70%的商業應用場景其實不需要模型的多數能力啊,這點終端上本來有的能力結合起來這
個AI核心就好了。
35F:→ yunf : 浪費時間寫那麼多廢話幹嘛?04/07 01:37
因為玩的滿興奮的
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:41:56
36F:→ yunf : 續航力問題沒辦法解決講再多你也只是空談 04/07 01:40
37F:推 furture84 : 有消息稱google的演算法是抄襲某研究生,而研究生04/07 01:48
38F:→ furture84 : 的演算法是開源的04/07 01:48
39F:→ furture84 : Rabbit 04/07 01:48
40F:→ furture84 : RabitQ 04/07 01:48
41F:→ SodaMan : 不要離題了,模型蒸餾目的是節省算力成本,這不代 04/07 01:49
42F:→ SodaMan : 表著可以用低成本建置地端的AI ,知識蒸餾只是走了04/07 01:49
43F:→ SodaMan : 捷徑並不是捨去成本04/07 01:49
44F:推 lnonai : MTK:04/07 01:52
45F:推 magic543 : 實際測試過 小模型沒多大屁用 直接用線上AI就可以04/07 02:00
46F:→ magic543 : 真的要辦公 還是需要PC 唯一重點是記憶體真的被錯殺04/07 02:01
47F:噓 haley80208 : 整天吹 所以發布會的即時翻譯什麼時後能做好 04/07 02:03
48F:推 waitrop : 為何會提到蒸餾?谷歌這技術跟edge 端AI 跟蒸餾完 04/07 02:04
49F:→ waitrop : 全沒有關係,簡單說就是模型小到能在edge 執行,效04/07 02:04
50F:→ waitrop : 能又超強,跟蒸餾無關04/07 02:04
前兩代都是蒸餾的啊...
都是從teacher學習部分能力啊..
51F:推 hc20016 : 結論就是 需要很多很多的記憶體 04/07 02:06
52F:→ hc20016 : 記憶卡蛙團結強大 一張不賣04/07 02:06
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 02:08:53
53F:推 qoojo2002 : 現在買甲骨文很便宜04/07 02:29
54F:推 saito2190 : 我覺得邊緣裝置AI重點會在Agent能力跟指令服從性,04/07 02:35
55F:→ saito2190 : 他本身不用太聰明沒關係,反正Skill時代都是拿已經 04/07 02:35
56F:→ saito2190 : 寫好的Skill給他跑,他只要能在正確的時間調用正確 04/07 02:35
57F:→ saito2190 : 的工具,那就能完成大部分的任務,真正需要深度思 04/07 02:35
58F:→ saito2190 : 考+研究的再去調用外部大模型就好 04/07 02:35
59F:噓 holysong : 一隻手機20萬? 04/07 02:43
60F:推 nineflower : 終端AI現在就能做阿,很佔地方而已,手機終端還要等 04/07 02:51
61F:→ nineflower : 硬體奇異點突破 04/07 02:51
62F:推 bala045 : 不是oooo 而是xxxx 可不可以讓你AI 不要再生這種句 04/07 02:52
63F:→ bala045 : 子 04/07 02:52
64F:→ zero790425 : 在吹估狗卻用別家AI填充內文 bad 04/07 03:07
65F:→ sonatafm2 : 所以沒那麼快落實到手持裝置的 04/07 03:15
66F:推 TameFoxx : 無論怎搞 你的電費都還是比雲端API還貴 04/07 03:28
67F:→ budaixi : == 消費性電子股價都跌爛了,就你在吹 04/07 03:44
68F:→ kingofsdtw : 增加手機耗電嗎? apple笑而不語 04/07 04:08
69F:噓 space20021 : 你這篇也是AI寫的 04/07 04:22
70F:→ CH1SIR : 置板凳!04/07 04:35
71F:→ CH1SIR : 五年後再回來這篇04/07 04:35
72F:推 kkman2 : 覺得遲早的事情 04/07 04:56
73F:→ mtmmy : Mac Mini 16G RAM跑Gemma 4還是好吃力04/07 05:16
74F:推 breathair : 谷歌這版本基本就是給開發者玩的,看能玩出什麼花樣04/07 05:23
75F:→ breathair : ,有人調整權重讓他接受一些惡意指令(駭客攻擊),04/07 05:23
76F:→ breathair : 有人把它拿進公司封閉環境裡面做工作流自動化,綁定04/07 05:23
77F:→ breathair : 開發者生態,目的是為了搶佔開發者生態為目的 04/07 05:23
78F:→ breathair : 日後終端算力肯定越來越高,模型越做越小。那個時候 04/07 05:23
79F:→ breathair : 這東西就有機會成為可以裝在所有終端的安卓2.0(絕 04/07 05:23
80F:→ breathair : 對不是現在,現在在手機上還不如免費版的Gemini) 04/07 05:23
81F:→ breathair : 我買了許多谷歌,但谷歌現階段真不看這東西,他最重 04/07 05:25
82F:→ breathair : 要的業務一樣是廣告跟大模型能力來保護自己的搜索業 04/07 05:25
83F:→ breathair : 務,這只是眾多佈局中的一個細分賽道 04/07 05:25
84F:推 cy168 : 沒有open ai,google 當初並不想推llm ai,因為商 04/07 05:36
85F:→ cy168 : 業獲利整個被侵蝕。現在又準備建構讓大家離不開的 04/07 05:36
86F:→ cy168 : 生態鏈了。 04/07 05:36
87F:噓 alice1967 : 共享的資源還是最經濟實惠的,終端只是最後輸出跟顯 04/07 05:37
88F:→ alice1967 : 示工具,別想太多! 04/07 05:37
89F:→ guanting886 : SLM配點RAG最多只能做到志工媽媽角色 04/07 06:13
90F:→ guanting886 : 能做小就幾個方向 縮小參數量、量化精度損失的部分 04/07 06:17
91F:→ guanting886 : 就你看你調效的取捨 04/07 06:17
92F:→ guanting886 : 上下文的能吃的量就決定他能做的事很有限了04/07 06:18
93F:推 vovovolibear: 你的眼光很棒,只是目前我們連夏天有沒有油可以發電04/07 06:55
94F:→ vovovolibear: 都不知道 04/07 06:55
95F:推 zenixls2 : meta的llama當初被吹多高,你真的覺得本地端模型炒04/07 07:14
96F:→ zenixls2 : 得起來?04/07 07:14
97F:→ zenixls2 : esp32接大模型表現比Mac m3,4跑本地端模型好時,你04/07 07:20
98F:→ zenixls2 : 還想用本地端嗎?04/07 07:20
99F:推 mdkn35 : 早就有了吧 就準確率問題 04/07 07:24
100F:推 efkfkp : 所以google到底還能不能買?有翻倍的可能嗎?還是股 04/07 07:31
101F:→ efkfkp : 價就這樣了 04/07 07:31
102F:→ wed1979 : 算力中心一直建,是有什麼應用已經落地需要大算力.. 04/07 07:34
103F:→ wed1979 : .sora不是燒完了 04/07 07:34
104F:→ CYL009 : 之前豆包手機就是了 只不過會被其他大企業抵制 看谷 04/07 07:38
105F:→ CYL009 : 歌怎麼玩 04/07 07:38
106F:噓 gaussjordan : 你哪位 04/07 07:45
107F:推 solarpower : 感謝分享與測試~謝謝 04/07 07:47
108F:推 john801110 : 阿斯拉? 04/07 07:52
109F:推 roiop710 : 好的看來壓身家衝記憶體了 04/07 07:52
110F:噓 fajita : 吹成這樣,看了都覺得好笑,跟那個死臉AI一樣 04/07 07:54
111F:噓 jas258 : 這種 這不是…而是的文體是不是都是AI啊 04/07 07:59
112F:推 secrectlife : 好像廢話太多了 04/07 08:11
113F:推 ahg : 普遍消費者用與不用的差別?這滲透率跟商轉能這麼 04/07 08:12
114F:→ ahg : 樂觀?04/07 08:12
115F:推 CCH2022 : 要多久才能twitch YouTube直播做到即時翻譯04/07 08:18
116F:噓 alice1967 : 你要知道公司靠什麼收費,是廣告不是手機,既然如此 04/07 08:26
117F:→ alice1967 : ,搞終端就是傻子,沒有收入搞個屁!不要淨用AI寫幻04/07 08:26
118F:→ alice1967 : 想文04/07 08:26
119F:推 ikariamman : 台灣早有啦04/07 08:33
120F:噓 Porops : 有夠AI的文章,業內的根本不可能有這樣的結論04/07 08:45
121F:→ ma721 : 電池沒解決前都不可能 04/07 08:53
123F:推 orange7986 : 我用 Mac Mini m4 pro 跑8B 模型很快但很笨 30B跑 04/07 09:15
124F:→ orange7986 : 超慢…還是用雲端好 04/07 09:15
絕大多數的需求,只需要意圖辨識
就夠了剩下都是其他終端上的整合
大模型也幾乎都是這樣做的,差別在於專業領域的知識蒸餾,守備範圍
125F:推 joygo : 沒噴就是跑起來其實還好 04/07 09:22
126F:→ joygo : 出了之後就下載的心得是 如果你拿去買顯卡的錢 調 04/07 09:23
127F:→ joygo : 閱應該很夠了 老黃越出token只會越便宜 04/07 09:23
128F:噓 dhm520 : 廢話太多 04/07 09:50
129F:→ xiemx : 好吧先看看 04/07 09:55
※ 編輯: neo5277 (1.162.139.18 臺灣), 04/07/2026 09:59:49
130F:推 ACDC69 : 欸婆,meta,喔噴ai 全蛋雕了 04/07 10:15
131F:噓 rumblefish : 喔 04/07 11:14
132F:推 atari77 : 可以養電子女秘書了? 04/07 11:51
133F:噓 xoyeh168 : 超蝦,終端時代=免費=賺不到錢,頂多賣硬體的可以賺 04/07 13:52
134F:噓 edison106 : 所以google到底要漲了沒 04/07 14:18
135F:→ hannah5269 : 谷歌工程師大發財! 04/07 14:33
136F:推 lee28119 : Ptt發文拜託不要用AI寫啦 又不是FB要拼流量產出… 04/07 15:06
137F:→ samm3320 : 呃你有去裝過Gemma4來用嗎 04/07 15:41
138F:→ bearq258 : 老機器跑低參數ai還是不能用,連理解命令正確率還是 04/07 17:29
139F:→ bearq258 : 不如多參數,小學生等級與碩士等級差異 04/07 17:29
140F:噓 Lhmstu : 就問怎麼賺錢? 04/07 18:54
141F:→ DVE : 要找人內推就附上英文履歷啊,以你的學歷想進Google 04/07 20:01
142F:→ DVE : 之前的工作履歷應該有些亮點吧。 04/07 20:01