作者LoveSports (我要当一个渣攻)
看板Gossiping
标题Re: [问卦] Gemini是不是过誉了?
时间Sun Nov 30 22:41:32 2025
※ 引述《stonys (蝶恋影)》之铭言:
: 昨天心血来潮
: 问了Gemini Pro3 付费版一个10*10的数蛇题
谢谢s大分享资讯
先回答关於计算数蛇题的事
後半段再讨论AI算不出来的问题 其实都跟工作记忆(注意力机制)有关
我丢给AI算他们都算不出来 所以我想乾脆自己来算(s大有寄题目给我)
我没做过这种题目 本来以为很难 因为AI们说人类要花好几天
结果发现其实跟空间与推理有关 像走迷宫
s大你在推文说你基本上一天以内 女儿花两天
我花一分钟 既然如此来分享一下如何解题
如果说边走才边思考下一个数字要走哪个方向 那就太慢了
这种方式除了刚才走过的方向以外 得试三个方向
还得一边思考下一个数字是否为质数
其实不用这样 首先把10X10格子画好 25个质数题目规定好的位置标出来後
在纸上写出所有质数
2,3,5,7,11,13,17,19,23,29,31,37,41,43,47,53,59,61,67,71,73,79,83,89,97
这样视觉上就很清楚了 这步骤很重要
可以清空工作记忆空间
因为人类逻辑思考也会消耗工作记忆 所以要先把已知固定资讯输出到外部"清空书桌"
接着将以上质数大致上分群 拆成十步之内有几个质数 先分一两群就好
2,3,5,7,
11,13,17,19,23,29,31,37,41,43,47,53,59,61,67,71,73,79,83,89,97
1~10之间有四个质数 这是一群 用这个方法去观察出发点附近格子
哪个方向走十步之内会遇到四个质数 这样子就很明显了
大概下玩前二十步之後移动方向大致也确认了
那之後就只是把数字填进去而已 看下一个质数差多少格决定方向
等於追着质数"跑" 所以很快
不用动脑就只是写字而已 所以真的只要一分钟就能解题
这种解题方式是把数字当成符号看待 把格子当成迷宫 质数当成障碍物或宝物
用玩RPG游戏走迷宫的方式
我大概犹豫两次 开头右上角跟中间下方 反应时间分别耗不到五秒
以下说明为什麽AI尤其是Gemini答不出来
: 结果他老兄想了老半天
: 给出了一堆错误答案
: 要嘛数字重复出现
: 要嘛数字没有连续出现直接跳格
: 然後我把同样的题目丢给免费ChatGPT
: ChatGPT才花了1分17秒就给了一个正确解答
: 我先验算过後觉得没问题
: 再丢回给Gemini叫他验算
: 他就说这答案完全正确
: https://meee.com.tw/X0KUQ2c
: 接着我就告诉他,这是我用免费ChatGPT得到的答案
: 人家免费版才花了1分17秒就回答出来
: 你是付费的PRO版,怎麽都算不出来,是不是很废
: 然後他就开始讲一堆理由
: 一下子说人家ChatGPT是依靠後端的VM直接执行程式码
: 他因为权限关系无法做这样的运算
: 一下又说给我程式码
: 叫我用线上Python网页程式去执行,一定可以得出结果
: 我就照他说的,去问了ChatGPT是否有在背景执行VM的权限
: 人家说他没有,单纯用逻辑推导得到结果的
: 再用他的程式码到线上Python网页程式去执行
: 结果直接卡死
: 我就骂Gemini根本是又爱骗又废
: 最终他也承认我骂得很对
: https://meee.com.tw/kBoxdiK
: 所以说,Gemini是不是过誉了呢?
我丢给四家 四家都答错 後来学s大设数学老师指令GPT才答对
但其他三家都还是答错
讨论了一下 好像跟工作记忆(注意力机制)有关
刚好跟我做上述题目用的清空、避免占用工作记忆的解题技巧有关系
之前听过各家LLM说最不擅长的就是工作记忆
而且各种模型分配注意力的方式也有差别 有的是收敛(集中局部) 有的是发散(看整体)
收敛型的当遇到工作记忆爆掉 会重复演算一小局部然後卡住(比喻:ASD的过集中)
发散型的则是会继续算下去但是错一堆(比喻:ADHD的粗心出错)
另外还有平衡型
Gemini 3.0 pro的AI助理预设是发散型 联想力强能追踪长文本 但细微逻辑题容易出错
除此之外 当下问题如果被系统判定是文字类(s大这题就是) 就不会分配python给他运用
还会限定time out时间 如果要光靠文字推理他也是可以 但时间太长会放弃就乱掰
我後来制作了一个5X5复杂迷宫路线 跟6X6简单左到右S型 他有用文字推理出来
但6X6复杂迷宫路线 试了十几次就是没办法 同篇内算了三四次没办法就投降
GPT5.1如果没叫他扮演数学老师 在我两个帐号也是一样状况
怎样都算不出来 也是乱掰 也是塞程式码给我叫我自己算 然後讲一堆藉口
s大要求他扮演数学老师
是让他从AI助理预设模式的文字处理、发散型切到逻辑、收敛型
同样的指令对Gemini没有用 他说是因为角色扮演指令只会让他更发散(创意发挥)
基於他是原生多模态 不是像GPT那样先是语言模型再装视觉外挂
他是一出生就同时读图跟读文字而且要把两种关连连在一起 所以得是创意发散的
虽然也是有办法让他收敛
就像推文板友也有建议的 指示词讲明用python、用思维链一步一步算
但还是有极限的样子 有兴趣的人再自己试试看
其实每家各有优缺点 没有完美的 找出适合自己的就好了
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 146.70.31.61 (日本)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Gossiping/M.1764513695.A.D75.html
1F:推 palapalanhu: 你AI系!? 1.161.143.37 11/30 22:44
2F:推 ooooooo: 是说怎嗯103.142.140.151 11/30 22:48
3F:推 tomhawkreal: 查表法在AI出现前就很常使用 推解说 1.163.166.17 11/30 23:12
4F:→ tomhawkreal: 与其临时算半天 不如已知数都先算好 1.163.166.17 11/30 23:13
5F:→ AoWsL: 好酷喔 111.71.43.197 11/30 23:19
6F:推 wa120: 你神父系!? 1.169.223.184 12/01 01:22
7F:推 psion: 推个研究精神!173.230.166.156 12/04 07:53