作者buffon (简 单)
看板Stock
标题[新闻] 谷歌Gemini 2.5升级「全能王」推理、程
时间Fri Jun 6 16:06:42 2025
原文标题:
谷歌Gemini 2.5升级「全能王」推理、程式皆拿榜首!辗压o3与Claude 4
原文连结:
https://news.cnyes.com/news/id/6009666
发布时间:
2025-06-06 15:10
记者署名:
钜亨网新闻中心
原文内容:
谷歌 (GOOGL-US) 深夜携全新 Gemini 2.5 Pro 强势归来,仅用一个月碾压旧版 Gemini
2.5。数学、程式设计、推理全面封神,稳坐所有榜单第一名,全面领先竞争对手如 o3、
Claude 4 和 DeepSeek-R1 。
这次升级的 Gemini 2.5 Pro 在效能上展现出惊人的提升。其在整体 Elo 分数上提升了
24 分 ,尤其是在 Web Arena 上的 Elo 分数更是大幅跃升 35 分,达到 1443 分 。
在 LMArena 排行榜上,其 Elo 分数跃升 24 分,达到 1470 分,稳居榜首,并在所有领
域都排名第一,这充分证明了其在处理复杂任务方面的强大能力 。Google 官博介绍称,
这次发布的是 Gemini 2.5 Pro 的升级预览版,被誉为 Google 迄今为止最聪明的模型
。
此外,Gemini 2.5 Pro 无论是数学、程式设计还是推理能力,都刷新了业界的「最先进
水准」(SOTA),稳居所有榜单之首,彻底碾压了包括 o3、Claude 4 和 DeepSeek-R1
在内的所有竞争对手,为人工智慧的发展树立了新的里程碑。
token 价格不变 性价比极高
更令人振奋的是,尽管性能实现了质的飞跃,新版本 Gemini 2.5 Pro 的 token 价格却
保持不变,这使得其具备极高的性价比。与市场上的竞争对手相比,Gemini 2.5 Pro 的
输出价格仅为 o3 的四分之一,与 Claude 4 相比更是显着经济。
这对广大开发者和企业而言,无疑是一大利好消息,意味着他们能够以更低的成本获得顶
级的 AI 能力,加速创新应用开发和部署。
新版 Gemini 2.5 Pro (06-05) 还引入了多项创新功能,进一步提升了模型的可用性和开
发效率。其中最引人注目的便是高达 32k 的「思考预算」(Thinking Budget)功能,以
及改进的函数呼叫能力。
「思考预算」功能导入 提升开发灵活性
这些新特性赋予了开发者更大的灵活性和精确度,使其能够更有效地控制模型运行的成本
和延迟,实现更为复杂和客制化的 AI 解决方案。根据 Google 官方部落格的介绍,此次
发布的 Gemini 2.5 Pro 是一个升级预览版,是 Google 迄今为止最聪明的模型,预计在
几周後将成为普遍可用的稳定版本,非常适合企业级应用,满足各行各业对高效能 AI 的
需求。
在程式设计领域,Gemini 2.5 Pro 的表现同样令人印象深刻。它在 Aider Polyglot 等
高难度程式设计基准测试中名列前茅,展现了卓越的程式码生成、理解和除错能力。
同时,在 GPQA 和被誉为「人类最後考试」(HLE)等极具挑战性的基准测试中,Gemini
2.5 Pro 也展现了顶尖性能。这些测试全面评估了模型的数学、科学、知识和推理能力,
其优异的表现再次证明了 Gemini 2.5 Pro 的综合实力。
此外,Google 也针对先前 2.5 Pro 版本的用户回馈进行了改进,显着提升了其风格和结
构,现在它能提供更有创意、格式更优的回答,使其在内容生成和交流互动方面更加自然
流畅。
目前,开发者已可透过 Google AI Studio 和 Vertex AI 中的 Gemini API 开始使用更
新的 2.5 Pro 进行开发。其便捷的存取方式和强大的功能,将极大地促进 AI 技术的应
用创新。同时,Gemini 2.5 Pro 也已在 Gemini App 中正式上线,让广大普通用户也能
体验到其尖端 AI 能力所带来的便利与智慧。
网友实测 验证强大实力
为了验证 Gemini 2.5 Pro 在真实任务中的表现,众多网友纷纷进行了实测,结果令人惊
叹。一张「劈柴图」的广泛流传,暗示着业界普遍认为 Gemini 已是「兽中之王」。
在编码能力方面,其对 o3 和 Claude 4 的碾压已不再是空谈——新版 Gemini 2.5 Pro
成功通过了六边形物理模拟测试,证明了其在复杂物理环境建模和模拟方面的卓越能力。
更令人惊艳的是,它还能透过 Three.js 创造出逼真的 3D DNA 模型,展现出强大的图形
处理和视觉化能力。
资料科学家 Diego 进行了一项引人注目的测试:他让 Gemini 2.5 Pro 06-05 编写一段
Python 程式码,用於视觉化单行道中交通灯的工作原理,并要求车辆以随机速率进入。
程式码运行後的效果显示,动画整体精美,运行流畅,没有明显问题。
作为对比,GPT 4.5 生成的程式码效果则显得画面粗糙,车辆也不符合物理规律,这凸显
了 Gemini 2.5 Pro 在程式设计和模拟精确度方面的显着优势。Diego 先前也测试了
Claude Sonnet 3.7 和 Grok 3,这些对比进一步巩固了 Gemini 2.5 Pro 在 AI 领域的
领先地位。
Google Gemini 2.5 Pro (06-05) 的发布,标志着 Google 在人工智慧领域又迈出了坚实
的一步。其卓越的性能、高效的成本效益以及不断创新的功能,无疑将加速 AI 技术的普
及和应用。随着「李在明时代」的开启,我们预期 Google 将继续引领 AI 技术的发展,
为全球用户带来更多创新与便利。
心得/评论:
google 的 chrome 面临被法院强制出售的威胁
不过 Gemini 2.5 Pro 则是带来了好消息
Web Arena 上的 Elo 达到 1443 分
LMArena 排行榜上,Elo 达到 1470 分,稳居榜首
内文还提到 "高达 32k 的「思考预算」(Thinking Budget) 功能"
不过我看不懂这是啥 XD
另外
最後一段提到 "李在明时代"也很莫名
不知道想表达什麽
总之, 这最新推出的 Gemini 2.5 Pro 照内文所说
目前是辗压一切的存在
分享给各位股东参考
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 220.133.94.2 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1749197206.A.B11.html
1F:推 huyee : 极限体能王 06/06 16:10
2F:推 bamama56 : 柯南恐失业 06/06 16:11
3F:→ batterykugua: 用起来感觉变笨了 06/06 16:16
4F:推 FirePopcorn : 有涨价吗 06/06 16:16
5F:推 gk1329 : AI变跑分车欠体惹 06/06 16:20
6F:推 losage : 谁说算力不重要? 06/06 16:20
7F:→ gk1329 : 大家比谁跑分高= = 06/06 16:20
8F:推 chrischiu : 下一个是pro max 06/06 16:22
9F:→ dalensona : Gemini2.5 Pro真的很好用 06/06 16:23
10F:推 wahaha99 : 目前使用上体感 Gemini 2.5 pro 真的最强 06/06 16:27
11F:→ wahaha99 : 不过文学、美学领域可能还是ChatGPT 06/06 16:27
12F:推 Colaman : Gemini 2.5 Pro 目前觉得很好用、智商真的高 06/06 16:28
13F:推 cute15825 : Gemini真的好用 缺点是慢了点 但现在flash也很强== 06/06 16:29
14F:→ josephpu : 跟grok比起来gemini挺快的 06/06 16:31
15F:推 tsubasawolfy: 谁会拿文组用的4.5去测这个... 06/06 16:32
16F:→ tsubasawolfy: 要比好歹拿阉割版的O4mini 06/06 16:33
17F:推 Heedictator : 下个月又换人了 06/06 16:35
18F:→ orz811017 : 2.5 pro超赞 内部用爽爽 06/06 16:38
19F:推 huabandd : gemini一直以来在准确度比较高,但在创意或是特定 06/06 16:40
20F:→ huabandd : 范围之外的思考略输chatgpt,有些gemini捞不到的东 06/06 16:40
21F:→ huabandd : 西chatgpt捞的到 06/06 16:40
22F:推 XXXXGAX : 好的继续跌 06/06 16:40
23F:推 bpq302302 : 手机的机迷你助理烂到流汤 06/06 16:44
24F:推 sweetantt : 谷哥重返王座 06/06 16:46
25F:推 chalon : 我昨天摊平 拜托别烙赛 06/06 16:59
26F:推 stlinman : aistudio.google.com 推一下谷哥大善人!可以玩看看 06/06 17:15
27F:→ okbon : 才两年就追上了 再1-2年看看 06/06 17:16
28F:→ okbon : G哥认真不是开玩笑的 06/06 17:17
29F:→ okbon : 神挡杀神 06/06 17:17
30F:推 TameFoxx : aistudio直接给你免费用到爽 06/06 17:18
31F:→ TameFoxx : 基本上大家的策略就是不停地蒐集用户资料 06/06 17:18
32F:→ TameFoxx : 来发展更强的模型 06/06 17:19
33F:→ and123698745: 全能住宅改造王 06/06 17:20
34F:推 dongdong0405: Google黑继续视而不见 06/06 17:26
35F:推 Lhmstu : 好用加一,已经转过来了 06/06 17:33
36F:推 TameFoxx : google不知道哪里得罪美国政府 06/06 17:40
37F:→ nashpan7 : 还是克劳狄最好用 06/06 17:43
38F:推 banbanzon : 油管字幕自动翻译成繁中依旧很笨 06/06 17:45
39F:→ fantasystar : 看来 agentic coding 还是 Claude 4 厉害,不过其他 06/06 17:50
40F:→ fantasystar : 部分 Gemini 赢了。你各位要小心,GOOG 以後只会往 06/06 17:50
41F:→ fantasystar : 上不会往下! 06/06 17:50
42F:推 Lecwei : 占营收50% 的chrome要被拆了 这没用啦 06/06 17:51
43F:推 banbanzon : 现在只剩阿婆老屁精没跟上AI大队伍 可怜啊 06/06 17:58
44F:推 roots5071 : Chatgpt Gemini都有订阅,说真的gemini 好用太多, 06/06 18:14
45F:→ roots5071 : 资料准确报告详细还不会一直鬼打墙,刚刚已经退cha 06/06 18:14
46F:→ roots5071 : tgpt 订阅了,留一个就好 06/06 18:14
47F:推 deathoflove : 拆分eps提高继续喷 06/06 18:17
48F:推 y2eww2r : 强 06/06 18:19
49F:→ lavign : o系列才有推理能力,用4.5比… 06/06 18:21
50F:推 ezreal1315 : 股价很惨 06/06 18:21
51F:推 NTUT56 : chatgpt关键字限制很多,一个不爽就违反规则罢工 06/06 18:27
52F:推 cpz : 刚刚试用了,确实比ChatGPT 和DeepSeek 聪明,ChatG 06/06 19:07
53F:→ cpz : PT 是最笨的 06/06 19:07
54F:推 NTUT56 : 昨天要chatgpt帮我画stark industries在那边跟我说 06/06 19:08
55F:→ NTUT56 : 版权问题拒画 06/06 19:08
56F:→ NTUT56 : gemini就没问题 06/06 19:09
57F:推 strlen : 啊能生吉卜力吗 06/06 19:09
58F:→ NTUT56 : gemini一定可以 06/06 19:10
59F:推 chysh : 思考预算就是限制AI在有限的预算内给你结论,才不会 06/06 19:43
60F:→ chysh : 为了给你太完美的答案钻牛角尖浪费token(钱) 06/06 19:43
61F:→ annawat : 软体愈来愈卷 06/06 20:12
62F:推 Forestier : gemini进步超快 之前1.5版烂的要命啥都不会回答 06/07 01:27
63F:推 cwhgraham : 当初gpt就是靠google提出的演算法才做出这种大语言 06/07 02:34
64F:→ cwhgraham : 模型的 06/07 02:34
65F:推 Toge : 骗人,我写程式他都常常跟我说我搞定不了我放弃了 06/07 05:18
66F:→ Toge : Grok 还比它有耐心太多了 06/07 05:18
67F:推 Toge : 我用的还是pro喔 06/07 05:24
68F:→ Altair : G2.5 flash就很好用了 grok逻辑明确但抓资料会出错 06/07 09:26
69F:推 Barefoot24 : Gemini用起来真的比chatgpt高级,我手机的实体Goog 06/08 00:15
70F:→ Barefoot24 : le助理按键以前完全没用过,现在按下去会叫Gemini 06/08 00:15
71F:→ Barefoot24 : 出来超方便 06/08 00:15
72F:推 xm3u4vmp6 : Google 付费还有 云端硬碟 llm notebook 直接取代C 06/08 10:12
73F:→ xm3u4vmp6 : hatGPT 跟Dropbox 06/08 10:12