WomenTalk 板


LINE

昨天贴在其他板 也贴来这里给有兴趣的人参考 从能力测试成绩来看 几款新的LLM最关键差异是在Nobel Problem Solving (ARC-AGI-2)(verified)的成绩 Gemini 3.0 pro是31.3%   GPT5.1是17.6%   (Claude Opus 4.5是37.6%) (更新: tsubasawolfy大提供资讯 Gemini 3.0 DeepThink 已达45%) 这个能力是在测LLM有多接近AGI 测试LLM从一堆数据中推理出规则的能力 以人类的智力来说是指流体智力(流动智力) 这种智力对人类来说难以靠後天念书补强 举实例 我今天丢了两篇文测试这两家LLM 起因是这样的 昨天晚上观察某板 发现居然在一小时内出现六篇正常闲聊文章 间隔大约十分钟左右 平常那里充斥仇女文跟男生发的恶搞文 那六篇全都是不同帐号发的 共通点是上站次数只有一百多 文章数极少 但奇怪的是IP相似 可分为三组 刚好都是远传电信 文章内容看起来也很相似 而且明明是陌生帐号却很容易能引发讨论 这在该板很异常 我把六篇一起丢给Gemini 3.0 pro分析 只问一句: 有没有共通隐藏点或可疑点 他结论是极高机率为养帐号/洗文章 (跟我的推理一样 我没跟他讲) 他的分析涵盖: 起手式、中间论述、结尾、语气特徵 都有抓出共通点 同样的方式丢给GPT5.1 他自动进入Thinking模式 他的推理是可疑度中等偏低 值得注意但无法判断有人故意操作 他的分析很详细 但却不像Gemini抓出那麽多共通点 (丢给Claude Sonnet 4.5 他的分析结果是"很有可能是养帐号"也从时间跟IP跟结构切入) 虽然Gemini说上述这主要测到的是广义的ARC能力 是测抽象归纳能力 不算ARC-AGI-2狭义上的测试类型 他说ARC的推理能力 当用户问以下这类问题时会用到: 例子一: 「我有这堆乱七八糟的地址数据,我要把它们转成 JSON 格式。我只给你三个例子,请你 自己看出规律,把剩下的 100 笔都转好。 例子二: 「我正在写一个游戏,我需要一个演算法。地图是一个二维网格,我想让怪物追踪玩家,  但怪物只能走『L』字型的路线(像西洋棋的马,但要走直线转弯),而且不能穿过墙  壁。请帮我写出这个路径搜寻的 Python 函数。」 例子三: 「我发现我的信用卡帐单积分计算怪怪的。  刷 100 元,得 1 点。  刷 200 元,得 2 点。  但刷 500 元,得 10 点。  刷 1000 元,得 25 点。  请帮我推测它的积分倍率规则可能是什麽?如果我刷 2500 元大概会拿多少点?」 简言之这代表LLM已经能办到用类似人类的system 2逻辑推理能力 从一堆没有根据的数据中找规则 并推导出答案 GPT的o3之前做过这个ARC-AGI-2的测验 他的分数不到3% 这是今年四月施测结果 现在才过半年左右 Gemini 3.0 pro跟Claude Opus 4.5已经超过30% 这代表什麽意思? 这个测验有找人类来测试 人类中聪明的专家小组施测结果是98-100% 人类一般人平均是60几~70几 想像看看 当这些LLM的流体智力超越大多数一般人 甚至未来达到100% 那会是什麽样的状况? ==================== 补充: ARC-AGI-2施测的考题是不公开的 都是全新制作 跟ARC-AGI-1不同 没有施测考题可以预先练习 完全测实力 考的内容很像WAIS的知觉推理 依据颜色跟形状跟方向 先看范本推理出规律 然後整理问题的数据找出答案 上述文中的问题 跟AI讨论後我觉得比较像网军文 因为文章看起来像套模板 不太像普通乡民洗帐号(谁会一次洗六个?) 以後如果AI价格变便宜 也许PTT可以使用AI侦测扫描所有文章 自动挡下可疑的网军文 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 146.70.31.62 (日本)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/WomenTalk/M.1764375328.A.20F.html
1F:嘘 yiao : AI有办法治没重点的长篇大论吗 118.169.0.230 11/29 13:52
重点是最後一段 AI可以用来抓网军或洗帐号 前面都是讨论技术 没兴趣的话觉得没重点很正常 ※ 编辑: LoveSports (146.70.31.54 日本), 11/29/2025 14:57:39







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Boy-Girl站内搜寻

TOP