Gossiping 板


LINE

※ 引述《stonys (蝶恋影)》之铭言: : 昨天心血来潮 : 问了Gemini Pro3 付费版一个10*10的数蛇题 谢谢s大分享资讯 先回答关於计算数蛇题的事 後半段再讨论AI算不出来的问题 其实都跟工作记忆(注意力机制)有关 我丢给AI算他们都算不出来 所以我想乾脆自己来算(s大有寄题目给我) 我没做过这种题目 本来以为很难 因为AI们说人类要花好几天 结果发现其实跟空间与推理有关 像走迷宫 s大你在推文说你基本上一天以内 女儿花两天 我花一分钟 既然如此来分享一下如何解题 如果说边走才边思考下一个数字要走哪个方向 那就太慢了 这种方式除了刚才走过的方向以外 得试三个方向 还得一边思考下一个数字是否为质数 其实不用这样 首先把10X10格子画好 25个质数题目规定好的位置标出来後 在纸上写出所有质数 2,3,5,7,11,13,17,19,23,29,31,37,41,43,47,53,59,61,67,71,73,79,83,89,97 这样视觉上就很清楚了 这步骤很重要 可以清空工作记忆空间 因为人类逻辑思考也会消耗工作记忆 所以要先把已知固定资讯输出到外部"清空书桌" 接着将以上质数大致上分群 拆成十步之内有几个质数 先分一两群就好 2,3,5,7,11,13,17,19,23,29,31,37,41,43,47,53,59,61,67,71,73,79,83,89,97 1~10之间有四个质数 这是一群 用这个方法去观察出发点附近格子 哪个方向走十步之内会遇到四个质数 这样子就很明显了 大概下玩前二十步之後移动方向大致也确认了 那之後就只是把数字填进去而已 看下一个质数差多少格决定方向 等於追着质数"跑" 所以很快 不用动脑就只是写字而已 所以真的只要一分钟就能解题 这种解题方式是把数字当成符号看待 把格子当成迷宫 质数当成障碍物或宝物 用玩RPG游戏走迷宫的方式 我大概犹豫两次 开头右上角跟中间下方 反应时间分别耗不到五秒 以下说明为什麽AI尤其是Gemini答不出来 : 结果他老兄想了老半天 : 给出了一堆错误答案 : 要嘛数字重复出现 : 要嘛数字没有连续出现直接跳格 : 然後我把同样的题目丢给免费ChatGPT : ChatGPT才花了1分17秒就给了一个正确解答 : 我先验算过後觉得没问题 : 再丢回给Gemini叫他验算 : 他就说这答案完全正确 : https://meee.com.tw/X0KUQ2c : 接着我就告诉他,这是我用免费ChatGPT得到的答案 : 人家免费版才花了1分17秒就回答出来 : 你是付费的PRO版,怎麽都算不出来,是不是很废 : 然後他就开始讲一堆理由 : 一下子说人家ChatGPT是依靠後端的VM直接执行程式码 : 他因为权限关系无法做这样的运算 : 一下又说给我程式码 : 叫我用线上Python网页程式去执行,一定可以得出结果 : 我就照他说的,去问了ChatGPT是否有在背景执行VM的权限 : 人家说他没有,单纯用逻辑推导得到结果的 : 再用他的程式码到线上Python网页程式去执行 : 结果直接卡死 : 我就骂Gemini根本是又爱骗又废 : 最终他也承认我骂得很对 : https://meee.com.tw/kBoxdiK : 所以说,Gemini是不是过誉了呢? 我丢给四家 四家都答错 後来学s大设数学老师指令GPT才答对 但其他三家都还是答错 讨论了一下 好像跟工作记忆(注意力机制)有关 刚好跟我做上述题目用的清空、避免占用工作记忆的解题技巧有关系 之前听过各家LLM说最不擅长的就是工作记忆 而且各种模型分配注意力的方式也有差别 有的是收敛(集中局部) 有的是发散(看整体) 收敛型的当遇到工作记忆爆掉 会重复演算一小局部然後卡住(比喻:ASD的过集中) 发散型的则是会继续算下去但是错一堆(比喻:ADHD的粗心出错) 另外还有平衡型 Gemini 3.0 pro的AI助理预设是发散型 联想力强能追踪长文本 但细微逻辑题容易出错 除此之外 当下问题如果被系统判定是文字类(s大这题就是) 就不会分配python给他运用 还会限定time out时间 如果要光靠文字推理他也是可以 但时间太长会放弃就乱掰 我後来制作了一个5X5复杂迷宫路线 跟6X6简单左到右S型 他有用文字推理出来 但6X6复杂迷宫路线 试了十几次就是没办法 同篇内算了三四次没办法就投降 GPT5.1如果没叫他扮演数学老师 在我两个帐号也是一样状况 怎样都算不出来 也是乱掰 也是塞程式码给我叫我自己算 然後讲一堆藉口 s大要求他扮演数学老师 是让他从AI助理预设模式的文字处理、发散型切到逻辑、收敛型 同样的指令对Gemini没有用 他说是因为角色扮演指令只会让他更发散(创意发挥) 基於他是原生多模态 不是像GPT那样先是语言模型再装视觉外挂 他是一出生就同时读图跟读文字而且要把两种关连连在一起 所以得是创意发散的 虽然也是有办法让他收敛 就像推文板友也有建议的 指示词讲明用python、用思维链一步一步算 但还是有极限的样子 有兴趣的人再自己试试看 其实每家各有优缺点 没有完美的 找出适合自己的就好了 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 146.70.31.61 (日本)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Gossiping/M.1764513695.A.D75.html
1F:推 palapalanhu: 你AI系!? 1.161.143.37 11/30 22:44
2F:推 ooooooo: 是说怎嗯103.142.140.151 11/30 22:48
3F:推 tomhawkreal: 查表法在AI出现前就很常使用 推解说 1.163.166.17 11/30 23:12
4F:→ tomhawkreal: 与其临时算半天 不如已知数都先算好 1.163.166.17 11/30 23:13
5F:→ AoWsL: 好酷喔 111.71.43.197 11/30 23:19
6F:推 wa120: 你神父系!? 1.169.223.184 12/01 01:22
7F:推 psion: 推个研究精神!173.230.166.156 12/04 07:53







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Boy-Girl站内搜寻

TOP