作者error405 (流河=L)
看板AI_Art
标题[闲聊] GPT 5.2 评测影片重点摘要
时间Tue Dec 16 12:05:46 2025
https://www.youtube.com/watch?v=jnTSGk0gi5c
以下是这部 GPT 5.2 评测影片的重点摘要,总结了其新功能、实际演示结果以及与竞品
的比较:
1. 核心亮点与定位
最强模型之一:GPT 5.2 被 OpenAI 宣称为「最适合专业知识工作」的模型。
版本:影片中测试的是 GPT 5.2 Thinking(思考模式),这是性能最强的变体。
付费限制:目前仅限 Plus 等付费订阅用户使用,免费用户无法存取。
知识库更新:知识截止日期为 2025 年 8 月,比许多竞品更新。
2. 实际演示与能力测试
影片展示了多个高难度的 Prompt 测试,结果如下:
HTML/JS 程式编码能力(极强):
蜂巢模拟:成功生成包含工蜂路径、蜂蜜储存的视觉化模拟。与 Gemini 3 相比
,GPT 5.2 的模拟更符合物理现实(蜜蜂从单一入口进出)。
Photoshop 复刻版:仅用 19 秒就写出了一个功能完整的网页版 Photoshop,包
含图层、笔刷(可调硬度/透明度)、滤镜(模糊/锐化/灰阶)、混合模式(
Overlay/Multiply)和编辑历史,功能全部可用且无 bug。
Windows 11 复刻版:生成了包含功能性 Word、Excel(支援公式计算)、
PowerPoint(可新增投影片、播放简报)的桌面模拟。虽然 UI 不完美,但功能性远胜
Gemini 3 Pro(後者生成的 Excel 无法操作)。
3D 光线追踪模拟:成功生成两个金属球悬浮在街道上的 3D 场景,且球体之间
能互相反射(物理正确),这是之前模型无法做到的。
3D 星空图:一次生成可互动的 3D 星座图,标签与星座形状(如北斗七星)大
致正确。
视觉辨识与多模态能力:
动漫角色辨识:能准确辨识并标注《鬼灭之刃》中的多个角色。
寻找威利 (Where's Waldo):透过撰写 Python 程式码来扫描图片,耗时 13 分
钟後成功找到威利,展现了强大的工具使用与问题解决能力。
复杂表格转 Excel:能处理结构极其复杂、有缺失储存格的巢状表格,并完美转
换为试算表。
流程图转代码:能将复杂流程图转换为可编辑的 canvas,文字与颜色正确,但
箭头连接上有少量错误。
弱点:在「寻找隐藏青蛙」和「医疗影像病灶标注」的测试中表现不佳,与
Gemini 3 Pro 一样未能正确识别。在地理位置猜测(Geo-guessing)上,虽未完全命中
,但比 Gemini 3 Pro 更接近真实位置。
3. 基准测试 (Benchmarks) 与竞品比较
GDP Val:在涵盖 44 种职业任务的测试中,GPT 5.2 是首个在超过 50% 的时间内表
现优於人类专家的模型。
ARC-AGI 2:在测试「学习新模式能力」的指标上得分 52.9%,显着优於 Gemini 3
Pro,显示其适应未知问题的能力更强。
SWE-bench Pro:OpenAI 采用了更难的 "Pro" 版本测试,显示其优於 Claude Opus
4.5 和 Gemini 3 Pro。但在旧版的 "Verified" 测试中,GPT 5.2 未必领先。
长文本能力:在 256k tokens(约 20 万字)的长文本测试中,准确率接近 100%。
但其最大上下文窗口为 400k tokens,低於 Gemini 3 的 100 万 tokens。
第三方排名:
在 Artificial Analysis 排行榜上,GPT 5.2 Extra High 与 Gemini 3 Pro 并
列第一。
价格方面,每百万 token $4.8 美元,比 Gemini 3 Pro 稍贵,但远便宜於
Claude Opus 4.5。
在幻觉率(Hallucination Rate)上,GPT 5.2 表现中等(78% 错误率),优
於 Gemini 3 Pro,但不如 Grok 4 或 Kimi k2。
总结
GPT 5.2 是一个非常强大的模型,特别是在复杂编码(能写出功能完整的应用程式)和逻
辑推理方面表现突出。虽然在某些视觉识别任务上仍有进步空间,但整体实力与 Gemini
3 Pro 处於伯仲之间,是目前市场上的顶级选择。
--
gemini3整理
竞争对手都说伯仲之间了应该不弱
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.36.245.116 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1765857948.A.19E.html
1F:→ error405: 这频道有料但影片好长 先做摘要再倍速跳着看比较快 12/16 12:14
2F:推 ct13579: 看明年的grok5能否顶足而三 12/16 12:28
3F:推 Supasizeit: 证明了headless video也是有人看 12/16 13:20
4F:→ error405: (天天刷低能short) 12/16 13:38