作者tanted (为何世界会那麽不单纯)
看板Stock
标题[新闻] Google正式发表Gemini 3.1 Pro 全面强化
时间Fri Feb 20 18:37:06 2026
-------------------------------发文提醒----------------------------------
1.发文前请先详阅[新闻]分类发文规范,未依规范发文将受处分。
2.发文请依照格式文章标明段落,不符合格式者依 1-2-1 处分。
3.连结过长请善用缩网址服务,连结不能点击者板规 1-2-2 处分。
4.心得/评论请尽量充实,心得过短或滥竽充数将以板规 1-2-3 处分。
------------------------ 按ctrl+y
可删除以上内容。 ----------------------
原文标题:
Google正式发表Gemini 3.1 Pro 全面强化复杂任务处理能力
原文连结:
https://news.cnyes.com/news/id/6347511
发布时间:
2026-02-20 16:20
记者署名:
原文内容:
Google(GOOGL-US) 周四 (19 日) 透过官方部落格,突然宣布推出其最新的人工智慧核心
模型 Gemini 3.1 Pro。这款模型被定位为处理最复杂任务的「智慧升级版」,象徵着
Google 在 AI 核心推理能力上取得了重大突破。
随着 Gemini 3.1 Pro 的发布,Google 旨在将更强大的智慧应用於日常开发与消费级产
品中,帮助使用者解决那些「简单回答已不足够」的艰难挑战。
核心推理能力的飞跃:基准测试表现惊人
Gemini 3.1 Pro 最受瞩目的改进在於其逻辑推理能力的提升。根据 Google 发布的数据
,该模型在评估逻辑模式解决能力的关键基准测试 ARC-AGI-2 中,获得了 77.1% 的验证
分数。与前代 Gemini 3 Pro 的 31.1% 相比,其推理性能提升超过两倍,也远高於
Gemini 3 Deep Think 的 45.1%。
https://cimg.cnyes.cool/prod/news/6347511/l/ec6f683db3c26648a93e93380118728e.jpg
https://reurl.cc/KONy0q
(来源: Google blog)
在与竞争对手的横向对比中,Gemini 3.1 Pro 在多项指标上领先於 Anthropic 的
Claude Opus 4.6 以及 OpenAI 的 GPT-5.2。例如:
‧ Humanity"s Last Exam(人类最後的考验):Gemini 3.1 Pro 分数为 44.4%,优於
Claude Opus 4.6 的 40.0% 与 GPT-5.2 的 34.5%。
‧ MMLU(大规模多任务语言理解):达到 92.6%,领先竞争对手。
‧ GPQA Diamond:得分 94.3%,展现出极高水平的专业知识理解。
尽管如此,报导也指出在特定领域中,竞争对手仍保有优势。例如,Claude Opus 4.6 在
部分 SWE-Bench 验证中仍位居榜首,而 OpenAI 的 GPT-5.3-Codex 则在特定的编程测试
中表现较佳。
多样化的实务应用
Google 强调,Gemini 3.1 Pro 不仅是数据上的进步,更在於能将高级推理转化为实用的
功能。
1. 纯程式码动画生成:该模型能直接根据文字指令生成网页适用的 SVG 动画。由於这些
动画是基於纯程式码而非像素构建,因此在任何比例下都能保持清晰,且档案体积远小於
传统影片。
2. 复杂系统整合:Gemini 3.1 Pro 展现了连接复杂 API 与使用者介面的能力。在官方
展示中,它成功构建了一个即时航太仪表板,利用公开遥测数据视觉化国际太空站
(ISS) 的轨道运行。
3. 沉浸式互动设计:该模型能编写复杂的 3D 动态视觉效果 (如鸟群飞翔模拟),并结合
手部追踪功能,让使用者能操控视觉效果,甚至产生随动作变化的生成式配乐。
4. 创意编码与文学转化:Gemini 3.1 Pro 展现了理解文学主题并将其转化为功能性程式
码的能力。例如,它能根据艾蜜莉 · 勃朗特的经典小说《咆哮山庄》的大气色调,设计
出富有现代感的个人作品集网站,而非仅仅是摘要文字。
全方位布局:如何体验 Gemini 3.1 Pro
Google 目前已在多个平台上陆续推送 Gemini 3.1 Pro,涵盖开发者、企业及一般消费者
:
‧ 一般消费者:可透过 Gemini App 使用。订阅 Google AI Pro 与 Ultra 方案的用户
将享有更高的使用限制。此外,NotebookLM 也已开放 Pro 与 Ultra 用户专属体验。
‧ 开发者与企业:可透过 Gemini API (Google AI Studio)、Vertex AI、Gemini
Enterprise 以及 Google 的代理式开发平台 Antigravity 进行访问。
‧ 开发工具整合:该模型也将整合进 Gemini CLI、Android Studio,甚至延伸至微软的
服务,如 GitHub Copilot 和 Visual Studio Code。
AI 赛赛升温:Google 的市场防御与进攻
这次发布正值 AI 市场竞争最激烈的时刻。市场分析指出,Gemini 3 Pro 在去年 11 月
发布後曾引发 OpenAI 的「红色警报 (code red)」,并导致部分用户从 ChatGPT 流向
Gemini。Google 执行长 Sundar Pichai 在最近的财报中提到,Gemini App 的月活跃用
户已超过 7.5 亿,且其模型透过 API 每分钟处理超过 100 亿个 token。
Gemini 3.1 Pro 的推出被视为 Google 快速迭代策略的一部分。Google 表示,目前发布
的是预览版,目的是为了在正式全面开放 (GA) 之前,验证更新并进一步推进代理式工作
流 (agentic workflows) 等雄心勃勃的研发领域。
Karpathy:应用商店模式正在过时
Gemini 3.1 Pro 发布之际,OpenAI 共同创办人 Andrej Karpathy 提出「应用商店模式
正在过时」的观点,他指出,随着如 Gemini 3.1 Pro 等具备强大推理能力的模型出现,
模型已能从单纯回答问题延伸到完成一整套专业工作流。
Karpathy 预见一个由「AI 原生传感器」和「执行器」构成的时代,届时将由 LLM 负责
编排、即兴生成高度定制的应用。这种「即时生成、用完即弃」或「个人专属」的软体逻
辑,将从根本上取代传统应用商店的发布与下载机制。
总结来说,Karpathy 认为,AI 让软体开发的门槛与成本降到极低,未来的趋势是 AI 根
据用户需求直接生成解决方案,而非用户去适配应用商店中既有的 App。
心得/评论:
现在出的AI强到一句话就能输出 完美的程式和动画,
离AGI真的不远
感觉人类似乎快无用了
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 123.193.229.55 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1771583831.A.A42.html
※ 编辑: tanted (123.193.229.55 台湾), 02/20/2026 18:39:19
1F:推 onekoni : 喷喷喷喷喷喷喷 02/20 18:37
2F:推 junior020486: 无感 02/20 18:38
3F:推 breathair : 早上就注意到了,盘前喷喷,听说Coding 超越Claude 02/20 18:40
4F:→ breathair : 了 02/20 18:40
5F:推 onekoni : 楼下点名台股估狗概念股周一市价买 02/20 18:40
6F:推 HiuAnOP : 救救狗家救救我! 02/20 18:41
7F:推 Timothy0225 : 欧喷酱的灵压… 02/20 18:42
8F:推 qqq852963tw : 狗狗还有救吗 02/20 18:42
9F:→ b9513227 : 坐等测评 前一版写扣跟垃圾一样 02/20 18:42
10F:→ b9513227 : 写扣跟垃圾一样=赚不到钱 02/20 18:43
11F:→ qqq852963tw : 300捡好多了 02/20 18:43
12F:推 davie11333 : 99估狗 02/20 18:50
13F:推 herculus6502: claude我大哥 02/20 18:51
14F:→ ssarc : 我用了之後觉得还是GPT翻译比较好 02/20 18:54
15F:推 labiron : 软工要死光了吧 02/20 19:04
16F:推 Haruna1998 : 希望真的有赢过Claude4.6 02/20 19:06
17F:推 LansingAltec: 才刚把狗卖了改搭美光战舰 02/20 19:08
18F:→ b9513227 : 从垃圾变成赢过claude 弯道超车? 02/20 19:14
19F:推 kidd085 : 发哥开喷 02/20 19:18
20F:嘘 stanleyplus : 没用了 下山已久 02/20 19:21
21F:→ bear753951 : 再下去就要比人类聪明了 02/20 19:24
22F:推 dovepacket : 可以生成涩涩吗 02/20 19:25
23F:推 kyo1760 : 现在估狗没人要了,前进老黄。 02/20 19:27
24F:推 ILoveOppai : 真假啦 coding真超越claude我就要订阅了 02/20 19:34
25F:推 mopa : 支持模型三家努力卷,得利的都是消费者。 02/20 19:37
26F:推 Heedictator : 欧印 02/20 19:42
27F:推 s56565566123: 人类完了 02/20 19:44
28F:→ jinkela1 : claude其实本就还好。。。cursor也是 02/20 19:49
29F:推 Brioni : 支持卷烂,看哪家方案更便宜 02/20 19:50
30F:推 hank78321 : 狗狗+u 02/20 19:52
31F:→ ZMTL : Coding有没有比Cluade强见仁见智,但各方面都是 02/20 19:52
32F:→ ZMTL : 比较便宜或给的用量比较多 02/20 19:53
33F:→ ZMTL : 然後多语言能力其实没特别进步 多模态能力还退步 02/20 19:53
34F:→ ZMTL : 但不重要,推理变强就好了 02/20 19:53
35F:推 nfsong : 车太快 02/20 19:53
36F:→ ZMTL : 现在应用范围太广了,抓好什麽任务给哪个模型比较 02/20 19:54
37F:→ ZMTL : 需要下点功夫 02/20 19:54
38F:→ jinkela1 : google真能一统天下 要考虑加码 02/20 19:55
39F:→ jinkela1 : 因为就算你技术不输google 它也能用服务全家桶商法 02/20 19:56
40F:→ jinkela1 : 赢你 02/20 19:56
41F:推 Haruna1998 : 推理比较重要 不然重要任务还真不敢交给3.0处理 02/20 20:01
42F:推 rayisgreat : 我已经不太能想像5-10年後的世界会有多可怕@@ 02/20 20:01
43F:→ b9513227 : claude还好喔? 一看就是只会问低能问题的 呵呵 02/20 20:06
44F:推 kilo7 : 以後除了外劳还有AI劳 适用於劳基法吗? 02/20 20:11
45F:推 turndown4wat: 怒喷1% 02/20 20:24
46F:推 alway70345 : 请问有人对话被删除吗? 02/20 20:27
47F:→ jorden : 赢过Opus 4.6 再说 02/20 20:28
48F:推 chachabo : 推文不看好才会涨 02/20 20:34
49F:嘘 LimYoHwan : 早上用了一下,很会胡说八道,没有的事实瞎吹一通 02/20 20:43
50F:推 kanehhh : 为什麽我才输入几句话就出现Gemini 3.1 Pro 短时间 02/20 20:44
51F:→ kanehhh : 要求过多无法处理 02/20 20:44
53F:→ LimYoHwan : 问了chatgpt5.2才戳破gemini 02/20 20:48
54F:→ WenliYang : 喷喷喷喷喷喷 02/20 20:51
55F:推 joewucool : 99菇狗 02/20 20:55
56F:推 matto : 上次的Google概念股又要喷一波了? 02/20 20:56
57F:推 lnonai : 发哥准备开喷 02/20 20:58
58F:推 as6633208 : 一根 02/20 20:58
60F:→ ghghccc : 跟就可版的笑话一样难笑 02/20 21:03
61F:推 junior020486: 狗狗等280我来买一些 02/20 21:04
62F:嘘 s910612 : 估狗跟垃圾一样 02/20 21:10
63F:嘘 stanleyplus : 200再说 02/20 21:17
64F:推 ss70239ss : 弹回320,接着烙赛回225 02/20 21:17
65F:推 y2eww2r : 谷歌不是涨完了 没跟到别接了 02/20 21:33
66F:推 NANJO1569 : 特别喜欢看Claude模型执行任务时的chain of thought 02/20 21:44
67F:→ NANJO1569 : 感觉它比其他家的大语言模型还活XD 02/20 21:45
68F:→ TheDonDon : 超越claude? 不太可能呢 02/20 21:50
69F:推 venroxas : 4.6贵是真的有料阿 我是觉得还没超越啦 02/20 21:53
70F:→ soulXdancer : 越来越猛 02/20 21:58
71F:推 stocktonty : 进步速度越来越快了 AI不用睡觉 接下来会越来越快 02/20 22:26
72F:嘘 northsoft : 强不强跟能不能变现是两回事 02/20 22:28
73F:推 hidalgo22976: 厉害 02/20 22:34
74F:推 XFight : 非常実用!很强大! 02/20 22:36
75F:→ XFight : 在推论方面,表现得不错 02/20 22:36
76F:推 magier : 一个月後不降智再说 02/20 22:45
77F:→ hitlerx : 问问题成天突然帮我画画要解决了? 02/20 23:08
78F:嘘 strlen : 用了两个多小时 惨输5.3-codex和opus4.6 02/20 23:17
79F:→ strlen : 然後opus 4.6不如4.5 幻觉率有变高的感觉 02/20 23:17
80F:→ strlen : 越来越容易乱写一通 4.5还比较听话 02/20 23:18
81F:→ strlen : 5.3 codex还是屌打全部 尤其困难需求xhigh一发解 02/20 23:18
82F:→ strlen : 三个交叉用下来就是这样 Gemini还是只能拿来产视觉 02/20 23:19
83F:→ strlen : 其它一无是处 02/20 23:19
84F:推 stlinman : 写写歌编曲,真有趣! 02/20 23:24
85F:推 amethystboy : 文组gpt理组Gemini 02/21 00:09
86F:推 guanting886 : 所有模型好坏取决於你要做的领域是什麽 02/21 00:35
87F:→ guanting886 : 大致上都不会太差 你问冷门的或是比较没办法收入到 02/21 00:36
88F:→ guanting886 : 训练集都是用掰的 02/21 00:36
89F:嘘 workhardplz : 看看就好 上次也是吹很大 但coding实际用起来根本 02/21 00:48
90F:→ workhardplz : 没比其他家强 02/21 00:48
91F:推 bala045 : Codex屌打claude 02/21 01:09
92F:推 candy80250 : 算了吧 google bug会删对话 一堆纪录都没了 02/21 01:28
93F:推 darkangel119: 挤牙膏大赛开始 02/21 01:32
94F:推 iamten : 三家都很烂 连写个简单脚本都会报错 还改不好 02/21 02:08
95F:推 genius0716 : 谷歌不再挤牙膏了 02/21 07:19
96F:推 ychuange : 越跑越慢 02/21 09:19
97F:推 dcgkii : 股沟资本支出超标 当然涨不动 现在你不扩充军武 02/21 10:51
98F:→ dcgkii : 就是被淘汰 扩充就是跌股价 毕竟没有100%成功投资 02/21 10:52
99F:→ secrectlife : 没感觉 02/21 12:43
100F:推 necrophagist: Antigravity昨天claude的配额用完试着用gem3.1pro 02/21 15:18
101F:→ necrophagist: 来修code 个人觉得还是claude比较强 02/21 15:18
102F:推 veter : google要一统江湖了 02/22 23:11