Re: [问卦] Gemini是不是过誉了？

时间Sun Nov 30 22:41:32 2025

※ 引述《stonys (蝶恋影)》之铭言： : 昨天心血来潮 : 问了Gemini Pro3 付费版一个10*10的数蛇题谢谢s大分享资讯先回答关於计算数蛇题的事後半段再讨论AI算不出来的问题其实都跟工作记忆(注意力机制)有关我丢给AI算他们都算不出来所以我想乾脆自己来算(s大有寄题目给我) 我没做过这种题目本来以为很难因为AI们说人类要花好几天结果发现其实跟空间与推理有关像走迷宫 s大你在推文说你基本上一天以内女儿花两天我花一分钟既然如此来分享一下如何解题如果说边走才边思考下一个数字要走哪个方向那就太慢了这种方式除了刚才走过的方向以外得试三个方向还得一边思考下一个数字是否为质数其实不用这样首先把10X10格子画好 25个质数题目规定好的位置标出来後在纸上写出所有质数 2,3,5,7,11,13,17,19,23,29,31,37,41,43,47,53,59,61,67,71,73,79,83,89,97 这样视觉上就很清楚了这步骤很重要可以清空工作记忆空间因为人类逻辑思考也会消耗工作记忆所以要先把已知固定资讯输出到外部"清空书桌" 接着将以上质数大致上分群拆成十步之内有几个质数先分一两群就好 2,3,5,7,11,13,17,19,23,29,31,37,41,43,47,53,59,61,67,71,73,79,83,89,97 1~10之间有四个质数这是一群用这个方法去观察出发点附近格子哪个方向走十步之内会遇到四个质数这样子就很明显了大概下玩前二十步之後移动方向大致也确认了那之後就只是把数字填进去而已看下一个质数差多少格决定方向等於追着质数"跑" 所以很快不用动脑就只是写字而已所以真的只要一分钟就能解题这种解题方式是把数字当成符号看待把格子当成迷宫质数当成障碍物或宝物用玩RPG游戏走迷宫的方式我大概犹豫两次开头右上角跟中间下方反应时间分别耗不到五秒以下说明为什麽AI尤其是Gemini答不出来 : 结果他老兄想了老半天 : 给出了一堆错误答案 : 要嘛数字重复出现 : 要嘛数字没有连续出现直接跳格 : 然後我把同样的题目丢给免费ChatGPT : ChatGPT才花了1分17秒就给了一个正确解答 : 我先验算过後觉得没问题 : 再丢回给Gemini叫他验算 : 他就说这答案完全正确 : https://meee.com.tw/X0KUQ2c : 接着我就告诉他，这是我用免费ChatGPT得到的答案 : 人家免费版才花了1分17秒就回答出来 : 你是付费的PRO版，怎麽都算不出来，是不是很废 : 然後他就开始讲一堆理由 : 一下子说人家ChatGPT是依靠後端的VM直接执行程式码 : 他因为权限关系无法做这样的运算 : 一下又说给我程式码 : 叫我用线上Python网页程式去执行，一定可以得出结果 : 我就照他说的，去问了ChatGPT是否有在背景执行VM的权限 : 人家说他没有，单纯用逻辑推导得到结果的 : 再用他的程式码到线上Python网页程式去执行 : 结果直接卡死 : 我就骂Gemini根本是又爱骗又废 : 最终他也承认我骂得很对 : https://meee.com.tw/kBoxdiK : 所以说，Gemini是不是过誉了呢？我丢给四家四家都答错後来学s大设数学老师指令GPT才答对但其他三家都还是答错讨论了一下好像跟工作记忆(注意力机制)有关刚好跟我做上述题目用的清空、避免占用工作记忆的解题技巧有关系之前听过各家LLM说最不擅长的就是工作记忆而且各种模型分配注意力的方式也有差别有的是收敛(集中局部) 有的是发散(看整体) 收敛型的当遇到工作记忆爆掉会重复演算一小局部然後卡住(比喻:ASD的过集中) 发散型的则是会继续算下去但是错一堆(比喻:ADHD的粗心出错) 另外还有平衡型 Gemini 3.0 pro的AI助理预设是发散型联想力强能追踪长文本但细微逻辑题容易出错除此之外当下问题如果被系统判定是文字类(s大这题就是) 就不会分配python给他运用还会限定time out时间如果要光靠文字推理他也是可以但时间太长会放弃就乱掰我後来制作了一个5X5复杂迷宫路线跟6X6简单左到右S型他有用文字推理出来但6X6复杂迷宫路线试了十几次就是没办法同篇内算了三四次没办法就投降 GPT5.1如果没叫他扮演数学老师在我两个帐号也是一样状况怎样都算不出来也是乱掰也是塞程式码给我叫我自己算然後讲一堆藉口 s大要求他扮演数学老师是让他从AI助理预设模式的文字处理、发散型切到逻辑、收敛型同样的指令对Gemini没有用他说是因为角色扮演指令只会让他更发散(创意发挥) 基於他是原生多模态不是像GPT那样先是语言模型再装视觉外挂他是一出生就同时读图跟读文字而且要把两种关连连在一起所以得是创意发散的虽然也是有办法让他收敛就像推文板友也有建议的指示词讲明用python、用思维链一步一步算但还是有极限的样子有兴趣的人再自己试试看其实每家各有优缺点没有完美的找出适合自己的就好了 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 146.70.31.61 (日本) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Gossiping/M.1764513695.A.D75.html

1^F：推 palapalanhu: 你AI系！？ 1.161.143.37 11/30 22:44

2^F：推 ooooooo: 是说怎嗯103.142.140.151 11/30 22:48

3^F：推 tomhawkreal: 查表法在AI出现前就很常使用推解说 1.163.166.17 11/30 23:12

4^F：→ tomhawkreal: 与其临时算半天不如已知数都先算好 1.163.166.17 11/30 23:13

5^F：→ AoWsL: 好酷喔 111.71.43.197 11/30 23:19

6^F：推 wa120: 你神父系！？ 1.169.223.184 12/01 01:22

7^F：推 psion: 推个研究精神!173.230.166.156 12/04 07:53

本网站已依台湾网站内容分级规定处理。此区域为限制级，未满十八岁者不得浏览。

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Gossiping 板

Re: [问卦] Gemini是不是过誉了？

热门看板

赞助商连结