作者buffon (简单)

看板Stock

标题

[新闻] 谷歌Gemini 2.5升级「全能王」推理、程

时间Fri Jun 6 16:06:42 2025

原文标题：谷歌Gemini 2.5升级「全能王」推理、程式皆拿榜首！辗压o3与Claude 4 原文连结： https://news.cnyes.com/news/id/6009666 发布时间： 2025-06-06 15:10 记者署名：钜亨网新闻中心原文内容：谷歌 (GOOGL-US) 深夜携全新 Gemini 2.5 Pro 强势归来，仅用一个月碾压旧版 Gemini 2.5。数学、程式设计、推理全面封神，稳坐所有榜单第一名，全面领先竞争对手如 o3、 Claude 4 和 DeepSeek-R1 。这次升级的 Gemini 2.5 Pro 在效能上展现出惊人的提升。其在整体 Elo 分数上提升了 24 分，尤其是在 Web Arena 上的 Elo 分数更是大幅跃升 35 分，达到 1443 分。在 LMArena 排行榜上，其 Elo 分数跃升 24 分，达到 1470 分，稳居榜首，并在所有领域都排名第一，这充分证明了其在处理复杂任务方面的强大能力。Google 官博介绍称，这次发布的是 Gemini 2.5 Pro 的升级预览版，被誉为 Google 迄今为止最聪明的模型。此外，Gemini 2.5 Pro 无论是数学、程式设计还是推理能力，都刷新了业界的「最先进水准」（SOTA），稳居所有榜单之首，彻底碾压了包括 o3、Claude 4 和 DeepSeek-R1 在内的所有竞争对手，为人工智慧的发展树立了新的里程碑。 token 价格不变性价比极高更令人振奋的是，尽管性能实现了质的飞跃，新版本 Gemini 2.5 Pro 的 token 价格却保持不变，这使得其具备极高的性价比。与市场上的竞争对手相比，Gemini 2.5 Pro 的输出价格仅为 o3 的四分之一，与 Claude 4 相比更是显着经济。这对广大开发者和企业而言，无疑是一大利好消息，意味着他们能够以更低的成本获得顶级的 AI 能力，加速创新应用开发和部署。新版 Gemini 2.5 Pro (06-05) 还引入了多项创新功能，进一步提升了模型的可用性和开发效率。其中最引人注目的便是高达 32k 的「思考预算」（Thinking Budget）功能，以及改进的函数呼叫能力。「思考预算」功能导入提升开发灵活性这些新特性赋予了开发者更大的灵活性和精确度，使其能够更有效地控制模型运行的成本和延迟，实现更为复杂和客制化的 AI 解决方案。根据 Google 官方部落格的介绍，此次发布的 Gemini 2.5 Pro 是一个升级预览版，是 Google 迄今为止最聪明的模型，预计在几周後将成为普遍可用的稳定版本，非常适合企业级应用，满足各行各业对高效能 AI 的需求。在程式设计领域，Gemini 2.5 Pro 的表现同样令人印象深刻。它在 Aider Polyglot 等高难度程式设计基准测试中名列前茅，展现了卓越的程式码生成、理解和除错能力。同时，在 GPQA 和被誉为「人类最後考试」（HLE）等极具挑战性的基准测试中，Gemini 2.5 Pro 也展现了顶尖性能。这些测试全面评估了模型的数学、科学、知识和推理能力，其优异的表现再次证明了 Gemini 2.5 Pro 的综合实力。此外，Google 也针对先前 2.5 Pro 版本的用户回馈进行了改进，显着提升了其风格和结构，现在它能提供更有创意、格式更优的回答，使其在内容生成和交流互动方面更加自然流畅。目前，开发者已可透过 Google AI Studio 和 Vertex AI 中的 Gemini API 开始使用更新的 2.5 Pro 进行开发。其便捷的存取方式和强大的功能，将极大地促进 AI 技术的应用创新。同时，Gemini 2.5 Pro 也已在 Gemini App 中正式上线，让广大普通用户也能体验到其尖端 AI 能力所带来的便利与智慧。网友实测验证强大实力为了验证 Gemini 2.5 Pro 在真实任务中的表现，众多网友纷纷进行了实测，结果令人惊叹。一张「劈柴图」的广泛流传，暗示着业界普遍认为 Gemini 已是「兽中之王」。在编码能力方面，其对 o3 和 Claude 4 的碾压已不再是空谈——新版 Gemini 2.5 Pro 成功通过了六边形物理模拟测试，证明了其在复杂物理环境建模和模拟方面的卓越能力。更令人惊艳的是，它还能透过 Three.js 创造出逼真的 3D DNA 模型，展现出强大的图形处理和视觉化能力。资料科学家 Diego 进行了一项引人注目的测试：他让 Gemini 2.5 Pro 06-05 编写一段 Python 程式码，用於视觉化单行道中交通灯的工作原理，并要求车辆以随机速率进入。程式码运行後的效果显示，动画整体精美，运行流畅，没有明显问题。作为对比，GPT 4.5 生成的程式码效果则显得画面粗糙，车辆也不符合物理规律，这凸显了 Gemini 2.5 Pro 在程式设计和模拟精确度方面的显着优势。Diego 先前也测试了 Claude Sonnet 3.7 和 Grok 3，这些对比进一步巩固了 Gemini 2.5 Pro 在 AI 领域的领先地位。 Google Gemini 2.5 Pro (06-05) 的发布，标志着 Google 在人工智慧领域又迈出了坚实的一步。其卓越的性能、高效的成本效益以及不断创新的功能，无疑将加速 AI 技术的普及和应用。随着「李在明时代」的开启，我们预期 Google 将继续引领 AI 技术的发展，为全球用户带来更多创新与便利。心得/评论： google 的 chrome 面临被法院强制出售的威胁不过 Gemini 2.5 Pro 则是带来了好消息 Web Arena 上的 Elo 达到 1443 分 LMArena 排行榜上，Elo 达到 1470 分，稳居榜首内文还提到 "高达 32k 的「思考预算」（Thinking Budget）功能" 不过我看不懂这是啥 XD 另外最後一段提到 "李在明时代"也很莫名不知道想表达什麽总之, 这最新推出的 Gemini 2.5 Pro 照内文所说目前是辗压一切的存在分享给各位股东参考 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 220.133.94.2 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1749197206.A.B11.html

1^F：推 huyee : 极限体能王 06/06 16:10

2^F：推 bamama56 : 柯南恐失业 06/06 16:11

3^F：→ batterykugua: 用起来感觉变笨了 06/06 16:16

4^F：推 FirePopcorn : 有涨价吗 06/06 16:16

5^F：推 gk1329 : AI变跑分车欠体惹 06/06 16:20

6^F：推 losage : 谁说算力不重要? 06/06 16:20

7^F：→ gk1329 : 大家比谁跑分高= = 06/06 16:20

8^F：推 chrischiu : 下一个是pro max 06/06 16:22

9^F：→ dalensona : Gemini2.5 Pro真的很好用 06/06 16:23

10^F：推 wahaha99 : 目前使用上体感 Gemini 2.5 pro 真的最强 06/06 16:27

11^F：→ wahaha99 : 不过文学、美学领域可能还是ChatGPT 06/06 16:27

12^F：推 Colaman : Gemini 2.5 Pro 目前觉得很好用、智商真的高 06/06 16:28

13^F：推 cute15825 : Gemini真的好用缺点是慢了点但现在flash也很强== 06/06 16:29

14^F：→ josephpu : 跟grok比起来gemini挺快的 06/06 16:31

15^F：推 tsubasawolfy: 谁会拿文组用的4.5去测这个... 06/06 16:32

16^F：→ tsubasawolfy: 要比好歹拿阉割版的O4mini 06/06 16:33

17^F：推 Heedictator : 下个月又换人了 06/06 16:35

18^F：→ orz811017 : 2.5 pro超赞内部用爽爽 06/06 16:38

19^F：推 huabandd : gemini一直以来在准确度比较高，但在创意或是特定 06/06 16:40

20^F：→ huabandd : 范围之外的思考略输chatgpt，有些gemini捞不到的东 06/06 16:40

21^F：→ huabandd : 西chatgpt捞的到 06/06 16:40

22^F：推 XXXXGAX : 好的继续跌 06/06 16:40

23^F：推 bpq302302 : 手机的机迷你助理烂到流汤 06/06 16:44

24^F：推 sweetantt : 谷哥重返王座 06/06 16:46

25^F：推 chalon : 我昨天摊平拜托别烙赛 06/06 16:59

26^F：推 stlinman : aistudio.google.com 推一下谷哥大善人!可以玩看看 06/06 17:15

27^F：→ okbon : 才两年就追上了再1-2年看看 06/06 17:16

28^F：→ okbon : G哥认真不是开玩笑的 06/06 17:17

29^F：→ okbon : 神挡杀神 06/06 17:17

30^F：推 TameFoxx : aistudio直接给你免费用到爽 06/06 17:18

31^F：→ TameFoxx : 基本上大家的策略就是不停地蒐集用户资料 06/06 17:18

32^F：→ TameFoxx : 来发展更强的模型 06/06 17:19

33^F：→ and123698745: 全能住宅改造王 06/06 17:20

34^F：推 dongdong0405: Google黑继续视而不见 06/06 17:26

35^F：推 Lhmstu : 好用加一，已经转过来了 06/06 17:33

36^F：推 TameFoxx : google不知道哪里得罪美国政府 06/06 17:40

37^F：→ nashpan7 : 还是克劳狄最好用 06/06 17:43

38^F：推 banbanzon : 油管字幕自动翻译成繁中依旧很笨 06/06 17:45

39^F：→ fantasystar : 看来 agentic coding 还是 Claude 4 厉害，不过其他 06/06 17:50

40^F：→ fantasystar : 部分 Gemini 赢了。你各位要小心，GOOG 以後只会往 06/06 17:50

41^F：→ fantasystar : 上不会往下！ 06/06 17:50

42^F：推 Lecwei : 占营收50% 的chrome要被拆了这没用啦 06/06 17:51

43^F：推 banbanzon : 现在只剩阿婆老屁精没跟上AI大队伍可怜啊 06/06 17:58

44^F：推 roots5071 : Chatgpt Gemini都有订阅，说真的gemini 好用太多， 06/06 18:14

45^F：→ roots5071 : 资料准确报告详细还不会一直鬼打墙，刚刚已经退cha 06/06 18:14

46^F：→ roots5071 : tgpt 订阅了，留一个就好 06/06 18:14

47^F：推 deathoflove : 拆分eps提高继续喷 06/06 18:17

48^F：推 y2eww2r : 强 06/06 18:19

49^F：→ lavign : o系列才有推理能力，用4.5比… 06/06 18:21

50^F：推 ezreal1315 : 股价很惨 06/06 18:21

51^F：推 NTUT56 : chatgpt关键字限制很多，一个不爽就违反规则罢工 06/06 18:27

52^F：推 cpz : 刚刚试用了，确实比ChatGPT 和DeepSeek 聪明，ChatG 06/06 19:07

53^F：→ cpz : PT 是最笨的 06/06 19:07

54^F：推 NTUT56 : 昨天要chatgpt帮我画stark industries在那边跟我说 06/06 19:08

55^F：→ NTUT56 : 版权问题拒画 06/06 19:08

56^F：→ NTUT56 : gemini就没问题 06/06 19:09

57^F：推 strlen : 啊能生吉卜力吗 06/06 19:09

58^F：→ NTUT56 : gemini一定可以 06/06 19:10

59^F：推 chysh : 思考预算就是限制AI在有限的预算内给你结论，才不会 06/06 19:43

60^F：→ chysh : 为了给你太完美的答案钻牛角尖浪费token(钱） 06/06 19:43

61^F：→ annawat : 软体愈来愈卷 06/06 20:12

62^F：推 Forestier : gemini进步超快之前1.5版烂的要命啥都不会回答 06/07 01:27

63^F：推 cwhgraham : 当初gpt就是靠google提出的演算法才做出这种大语言 06/07 02:34

64^F：→ cwhgraham : 模型的 06/07 02:34

65^F：推 Toge : 骗人，我写程式他都常常跟我说我搞定不了我放弃了 06/07 05:18

66^F：→ Toge : Grok 还比它有耐心太多了 06/07 05:18

67^F：推 Toge : 我用的还是pro喔 06/07 05:24

68^F：→ Altair : G2.5 flash就很好用了 grok逻辑明确但抓资料会出错 06/07 09:26

69^F：推 Barefoot24 : Gemini用起来真的比chatgpt高级，我手机的实体Goog 06/08 00:15

70^F：→ Barefoot24 : le助理按键以前完全没用过，现在按下去会叫Gemini 06/08 00:15

71^F：→ Barefoot24 : 出来超方便 06/08 00:15

72^F：推 xm3u4vmp6 : Google 付费还有云端硬碟 llm notebook 直接取代C 06/08 10:12

73^F：→ xm3u4vmp6 : hatGPT 跟Dropbox 06/08 10:12

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Stock 板

[新闻] 谷歌Gemini 2.5升级「全能王」推理、程

热门看板

赞助商连结