作者qazxc1156892 (QQ)
看板Stock
標題[新聞] 緊咬Anthropic!OpenAI同日推GPT-5.3-Cod
時間Fri Feb 6 22:25:52 2026
原文標題: 緊咬Anthropic!OpenAI同日推GPT-5.3-Codex 跑分碾壓Opus 4.6
原文連結:
https://ai.ettoday.net/news/3114219
發布時間: 2026年02月6日 08:48
記者署名: 吳立言
原文內容:
兩大 AI 巨頭 Anthropic 與 OpenAI 於今日接連發布重大更新。
Anthropic 首先發表 Cl
aude Opus 4.6,主打極長文本處理能力;
OpenAI 一小時後隨即宣布推出 GPT-5.3-Codex
,並公布數據顯示其在編碼實戰測試中展現出顯著的領先優勢。
Claude Opus 4.6:導入深度思考機制與多代理協作
Anthropic 此次更新重點聚焦於大規模資訊處理與邏輯穩定性。
Claude Opus 4.6 將上下
文視窗(Context Window)擴展至 100 萬 Token,相較於前代版本提升 5 倍之多。技術
層面上,該模型導入了「思考決策點」功能,使模型能辨識問題複雜度,自主決定是否啟
動深度推理流程。
此外,
Opus 4.6 強化了多代理(Multi-agent)協作能力,並在長文本記憶留存率上提升
近 4 倍,旨在解決長對話中常見的指令遺忘與邏輯斷層問題,針對大型專案的架構分析
提供了更穩定的基礎。
GPT-5.3-Codex:優化生成效率與 OS 層級操控
面對 Anthropic 的挑戰,
OpenAI 推出的 GPT-5.3-Codex 則在編碼基準測試中交出了亮
眼成績。數據顯示,該模型在 SWE-bench Pro(57%)、TerminalBench 2.0(76%) 及 O
SWorld(64%) 等測試中,皆取得目前業界最高水準。
除了跑分優勢,GPT-5.3-Codex 在開發體驗上有兩項核心突破:
中途干預能力(Mid-task Steerability): 支持任務執行過程中的即時引導與動態更新
,大幅降低複雜開發任務的錯誤成本。
效能密度提升: 生成相同內容所需 Token 數降至 5.2-Codex 的一半以下,且每 Token
生成速率提升超過 25%,顯著優化了推理成本與延遲。
這兩款模型的發布顯示出兩家公司發展策略的差異化:Claude 傾向於成為具備超長記憶
與深度邏輯的「數位大腦」;而 GPT-5.3-Codex 則朝向具備系統操作能力、高效率且可
高度受控的「執行工具」進化。
隨著 GPT-5.3-Codex 正式上線,開發者將有機會直接對比這兩款頂尖模型在實際工作流
中的表現差異。
心得/評論:
Google Gemini表示:.......
現在AI變成跟智慧型手機一樣比跑分了
這兩款token都一下子就用完了
Open醬看起來真的急了
以前是領頭羊 現在被追趕著不擠牙膏了
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.137.178.34 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Stock/M.1770387954.A.56C.html
1F:推 devidevi : 跑分是啥鬼東西 02/06 22:27
2F:推 iwcuforever : 每個月輪流測不同工具,目前來說還真的各有各優點 02/06 22:27
3F:推 gladopo : 最近open醬的更新看來不錯,急了 02/06 22:27
4F:推 b2060027830 : google 下去 02/06 22:28
5F:→ iwcuforever : Gemini強在多模態和notebooklm生簡報,Claude生出 02/06 22:30
6F:→ iwcuforever : 的文本就是比較嚴謹和有邏輯性,Chatgpt感覺就中庸 02/06 22:30
7F:→ iwcuforever : 版本 02/06 22:30
8F:推 kanehhh : 哪個模型能降低記憶體的需求就是利多 02/06 22:37
9F:推 yousking : 歐噴醬最近中文很強,給股票分析模型還會有(噴爆) 02/06 22:38
10F:→ yousking : 等字眼.... 02/06 22:38
11F:推 jackychen122: Gemini寫程式跟老頑固博士生一樣,不停不做就是不做 02/06 22:40
12F:推 offstage : 搞不好被餵進了PTT股板當學習資料 02/06 22:41
13F:推 George72 : 緊咬 是落後者的動詞 02/06 22:45
14F:→ csgowen : 寫程式還是喜歡claude 02/06 22:47
15F:→ LimYoHwan : 手機用戶通常主力一隻,寫程式很多人是claude, code 02/06 22:48
16F:→ LimYoHwan : x, gemini三個都打開來用好嗎 02/06 22:48
17F:→ LimYoHwan : Claude, codex左右互搏,gemini負責ui設計 02/06 22:49
18F:推 Toge : 其實我覺得codex寫code略強一點,但Claude很適合當 02/06 22:50
19F:→ Toge : 老師 02/06 22:50
20F:→ LimYoHwan : 看新聞說claude比較強的人一看就知道沒用真的用過, 02/06 22:52
21F:→ LimYoHwan : 就算5.2都不輸 02/06 22:52
22F:推 pt993526 : Gpt目前速度有感提升 02/06 22:53
23F:推 tarcowang : openAI是不是有派臥底啊? 02/06 22:53
24F:推 sova0809 : 這兩個打架 受傷的是其他軟體公司 02/06 22:53
25F:→ jjjj222 : 看我跑分, 好像之前安卓機出來會說的話 02/06 22:55
26F:推 Toge : codex一口氣寫出想要的功能機率比較高 02/06 22:55
27F:推 Faker0613 : 說codex比較屌是沒用過claude code+skills喔 幹根 02/06 23:05
28F:→ Faker0613 : 本屌打codex 02/06 23:05
29F:→ redbeanbread: 擠牙膏喔 人家出你才出 02/06 23:06
30F:推 tsubasawolfy: Codex 5.3抓bug能力有嚇到。講了一下某步驟的數字 02/06 23:09
31F:→ tsubasawolfy: 跟原始資料有落差而已,他就開始順著開著文檔內的 02/06 23:09
32F:→ tsubasawolfy: 位址一個script爬過一個檢查。然後要求系統權限開 02/06 23:09
33F:→ tsubasawolfy: 始對每個步驟模擬進行跟除錯。最後跟你說是哪個地 02/06 23:09
34F:→ tsubasawolfy: 方有問題,問你要不要修正。修完後還說我順便幫你 02/06 23:09
35F:→ tsubasawolfy: 其他關聯的script都修改好了。 02/06 23:09
36F:推 strlen : 這次發表的都是專門寫程式的 跑分不用看了都垃圾 02/06 23:10
37F:→ strlen : codex之前就蠻強的只是速度真的太慢了 02/06 23:11
38F:→ strlen : 這次明顯把短板改進 速度提升許多 就還不錯了 02/06 23:11
39F:→ strlen : 現在codex基本能與opus並駕其驅甚至部份超越 02/06 23:12
40F:→ strlen : opus價格太貴了也是劣勢就是了 02/06 23:12
41F:→ strlen : 然後前兩天codex也出了寫程式專用的App 那個讚 02/06 23:13
42F:→ strlen : CLI就留給那些臭酸老肥宅跟裝逼仔用 02/06 23:14
43F:→ strlen : 電腦發明都幾年了還在回去弄CLI 低能到有剩 02/06 23:14
44F:→ strlen : 另外skills基本就是脫褲子放屁 跟MCP一樣遲早過氣 02/06 23:16
45F:→ strlen : skills底層就是提示詞工程 最後全都會整合進LLM裡 02/06 23:17
46F:→ strlen : 還在那邊玩skills 都是過渡期在用的廢物功能 02/06 23:17
50F:→ LimYoHwan : Openclaw作者都這樣說了 推文的你真的有用過? 02/06 23:19
52F:→ strlen : 現在模型進步太快 有人不是每天刷推特 不曉得不是他 02/06 23:22
53F:→ LimYoHwan : 現在就華爾街帶風向說openai不行 跟去年講goog一樣 02/06 23:22
54F:→ LimYoHwan : 的套路 故意打壓股價 02/06 23:22
55F:→ strlen : 的錯 他的印象還留在寫程式=claude 02/06 23:22
56F:→ strlen : Openclaw作者一開始也是只用claude 後來交叉使用才 02/06 23:22
57F:→ strlen : 自己比較出優劣 02/06 23:23
58F:→ jjjj222 : 讓我想起了vim還是emacs還是vscode比較好的討論.. 02/06 23:24
59F:→ jjjj222 : 在此預言, 不會有結論.... 02/06 23:24
60F:→ strlen : 我以前碰過幾個vim死忠仔 共同特徵就是又老又肥脾氣 02/06 23:25
61F:→ strlen : 陰陽怪氣 甚至其中一個連git都不會用只用小烏龜 02/06 23:25
62F:→ strlen : 裝逼仔+老肥宅 無一例外 02/06 23:26
63F:→ strlen : 不會進步的工程師 在傳產一待就是20年 20年如一日 02/06 23:26
64F:→ strlen : 這就是CLI愛好者的形象 02/06 23:26
65F:→ LimYoHwan : Coding用很兇的人,全部都會用啦,各有優缺點,但 02/06 23:27
66F:→ LimYoHwan : 體感,codex最強,只是速度慢。並不像車子一樣,大 02/06 23:27
67F:→ LimYoHwan : 部分人選一種品牌 02/06 23:27
68F:→ strlen : 不過就無聊抬槓 在軟缸板講這個就是大爆炸然後被桶 02/06 23:27
69F:推 Serisu : 現在寫程式就在比拼工具練了,誰還在拿模型互比 02/06 23:28
70F:→ strlen : 本來就是交叉使用 但我最近有點懶的 主力就codex就 02/06 23:28
71F:→ strlen : 好 claude太貴了啦 用沒幾次額度就沒了三洨 02/06 23:28
72F:→ strlen : 當然要互比 像Gemini就是垃圾 我說寫程式 02/06 23:29
73F:→ Serisu : 規格丟上去就等收割了,到底有啥額度問題 02/06 23:29
74F:→ strlen : 寫程式SOTA就是codex claude 沒了 02/06 23:29
75F:→ strlen : 其它都是浪費時間 時間就是金錢 02/06 23:30
76F:→ LimYoHwan : 華爾街現在吹gemini 一狗票人也認為goog很強,開始 02/06 23:30
77F:→ LimYoHwan : 要被套了 02/06 23:30
78F:→ strlen : 當然gemini強項本來就在生圖之類的 可理解啦 02/06 23:31
79F:→ strlen : 狗家也有投資Antropic 大概是一個打消費一個打企業 02/06 23:31
80F:→ strlen : 說好要聯合把歐噴醬幹死 二打一 02/06 23:32
81F:→ strlen : 巨頭血戰連續劇 讓窩們繼續看下去 02/06 23:32
82F:→ m30127813 : 離線ai值得期待嗎? 02/06 23:33
83F:推 messi5566 : Codex一直都屌打G 02/06 23:37
84F:→ messi5566 : 網頁版Gemini最近在一些實時跑分排名上還偷偷變笨 02/06 23:37
85F:噓 mini178 : 把dickshit放哪裡? 02/06 23:39
86F:推 GX90160SS : 用AI寫是很爽 但感覺人類背的責任反而又更多了 02/06 23:43
87F:→ GX90160SS : 以前維護一個專案 -> 用AI寫後變成要維護三專案以上 02/06 23:43
88F:推 joy2105feh : 但GOOG強的點不只GEMINI阿XD 02/06 23:54
89F:推 chachabo : 99估狗 02/06 23:55
90F:→ yunf : 一人150萬美金不要太羨慕啊 02/06 23:57
91F:→ strlen : 我沒說狗家不強啊 搜我的文去年低點開始買的 02/07 00:11
92F:推 stocktonty : 沒有成人模式都不用談 02/07 00:14
93F:推 bhmagic : 偷偷變笨歐噴也有過 但現在好像不敢了 02/07 00:16
94F:→ bhmagic : 每個AI都有時候會故意用省資源的方式回答你 02/07 00:17
95F:推 L1ON : gemini: gpt還在呼吸啊 02/07 00:23
96F:推 s213092921 : 美國還在閉源模型的賽道死路內捲啊 02/07 00:29
97F:推 omanorboyo : google一樣是最後贏家啦 因為他才有轉換成$$的能力 02/07 00:40
98F:→ b9513227 : 井蛙又在丟臉了 codex本來就不差 02/07 00:55
99F:→ b9513227 : 至於gemini 這垃圾連競爭資格都沒有 02/07 00:55
100F:推 quanhwe : Chatgpt要活著比較好 不然Gemini會擺爛 02/07 03:00
101F:推 myth356 : GPT現在很卡頓欸 02/07 03:17
102F:→ e123456ddd : 現在會講什麼最後贏家的也很蠢 根本還太早期 02/07 04:36
103F:推 andy79323 : 用過vibe coding不會說出不同模型 02/07 07:21
104F:→ andy79323 : 程式碼分工這種事 02/07 07:21
105F:→ andy79323 : 用一款調架構就可以搞鼠自己了 02/07 07:21
106F:→ KingTsia : 超明顯沒料了 你更新我才更新 02/07 07:53
107F:推 GinginDenSha: 軟體圈每天就是一堆優越仔,鄙視鏈 02/07 08:22
108F:→ shiyangfoo : 沒人覺得祖家的方式才是最聰明的嗎 02/07 09:02
109F:→ D600dust : 5F Gemini生出來的不叫簡報 請你去用過Kimi再說強 02/07 09:42
110F:→ jjjj222 : win和mac吵, iphone和android也吵, 老吵了 02/07 15:42