作者LoveSports (我要当一个渣攻)
看板WomenTalk
标题[闲聊] 用AI抓洗帐号/网军
时间Sat Nov 29 08:15:25 2025
昨天贴在其他板 也贴来这里给有兴趣的人参考
从能力测试成绩来看
几款新的LLM最关键差异是在Nobel Problem Solving (ARC-AGI-2)(verified)的成绩
Gemini 3.0 pro是31.3% GPT5.1是17.6% (Claude Opus 4.5是37.6%)
(更新: tsubasawolfy大提供资讯 Gemini 3.0 DeepThink 已达45%)
这个能力是在测LLM有多接近AGI 测试LLM从一堆数据中推理出规则的能力
以人类的智力来说是指流体智力(流动智力) 这种智力对人类来说难以靠後天念书补强
举实例 我今天丢了两篇文测试这两家LLM
起因是这样的 昨天晚上观察某板
发现居然在一小时内出现六篇正常闲聊文章 间隔大约十分钟左右
平常那里充斥仇女文跟男生发的恶搞文
那六篇全都是不同帐号发的 共通点是上站次数只有一百多 文章数极少
但奇怪的是IP相似 可分为三组 刚好都是远传电信
文章内容看起来也很相似 而且明明是陌生帐号却很容易能引发讨论 这在该板很异常
我把六篇一起丢给Gemini 3.0 pro分析 只问一句: 有没有共通隐藏点或可疑点
他结论是极高机率为养帐号/洗文章 (跟我的推理一样 我没跟他讲)
他的分析涵盖: 起手式、中间论述、结尾、语气特徵 都有抓出共通点
同样的方式丢给GPT5.1
他自动进入Thinking模式 他的推理是可疑度中等偏低
值得注意但无法判断有人故意操作
他的分析很详细 但却不像Gemini抓出那麽多共通点
(丢给Claude Sonnet 4.5 他的分析结果是"很有可能是养帐号"也从时间跟IP跟结构切入)
虽然Gemini说上述这主要测到的是广义的ARC能力 是测抽象归纳能力
不算ARC-AGI-2狭义上的测试类型
他说ARC的推理能力 当用户问以下这类问题时会用到:
例子一:
「我有这堆乱七八糟的地址数据,我要把它们转成 JSON 格式。我只给你三个例子,请你
自己看出规律,把剩下的 100 笔都转好。
例子二:
「我正在写一个游戏,我需要一个演算法。地图是一个二维网格,我想让怪物追踪玩家,
但怪物只能走『L』字型的路线(像西洋棋的马,但要走直线转弯),而且不能穿过墙
壁。请帮我写出这个路径搜寻的 Python 函数。」
例子三:
「我发现我的信用卡帐单积分计算怪怪的。
刷 100 元,得 1 点。
刷 200 元,得 2 点。
但刷 500 元,得 10 点。
刷 1000 元,得 25 点。
请帮我推测它的积分倍率规则可能是什麽?如果我刷 2500 元大概会拿多少点?」
简言之这代表LLM已经能办到用类似人类的system 2逻辑推理能力
从一堆没有根据的数据中找规则 并推导出答案
GPT的o3之前做过这个ARC-AGI-2的测验 他的分数不到3% 这是今年四月施测结果
现在才过半年左右 Gemini 3.0 pro跟Claude Opus 4.5已经超过30%
这代表什麽意思?
这个测验有找人类来测试 人类中聪明的专家小组施测结果是98-100%
人类一般人平均是60几~70几
想像看看 当这些LLM的流体智力超越大多数一般人
甚至未来达到100% 那会是什麽样的状况?
====================
补充:
ARC-AGI-2施测的考题是不公开的 都是全新制作
跟ARC-AGI-1不同 没有施测考题可以预先练习 完全测实力
考的内容很像WAIS的知觉推理 依据颜色跟形状跟方向
先看范本推理出规律 然後整理问题的数据找出答案
上述文中的问题 跟AI讨论後我觉得比较像网军文 因为文章看起来像套模板
不太像普通乡民洗帐号(谁会一次洗六个?)
以後如果AI价格变便宜 也许PTT可以使用AI侦测扫描所有文章
自动挡下可疑的网军文
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 146.70.31.62 (日本)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/WomenTalk/M.1764375328.A.20F.html
1F:嘘 yiao : AI有办法治没重点的长篇大论吗 118.169.0.230 11/29 13:52
重点是最後一段 AI可以用来抓网军或洗帐号
前面都是讨论技术 没兴趣的话觉得没重点很正常
※ 编辑: LoveSports (146.70.31.54 日本), 11/29/2025 14:57:39