[新闻] AI圈爆大丑闻！研究揭Meta、Google、Open

时间Fri May 2 06:38:23 2025

评测网本来就要赚钱这也很正常 AI圈爆大丑闻！研究揭Meta、Google、OpenAI在Chatbot Arena上「作弊」钜亨网编译庄闵棻综合报导2025-05-01 21:12 AI圈爆大丑闻，研究揭Meta、Google、OpenAI在Chatbot Arena上「作弊」。（图：Shutterstock）来自人工智慧（AI）实验室 Cohere、史丹佛大学、麻省理工学院（MIT）与知名 AI 研究机构 AI2 的最新研究指出，知名 AI 测试平台《Chatbot Arena》疑似对 Meta(META-US) 、OpenAI、Google (GOOGL-US) 与亚马逊 (AMZN-US) 等大型科技公司提供不对等的测试机会，藉此提升其排行榜成绩，影响评测公信力。据报导，透过分析五个月内超过 280 万场模型对战纪录，研究发现 Meta、OpenAI 与 Google 的模型曝光率远高於其他厂商，有更多机会收集用户回馈并优化模型。研究团队还发现，封闭商业模型如 Google 与 OpenAI，在平台上的出战次数明显高於其他模型，相较之下，开源模型的曝光率低，甚至容易遭到移除，形成资料存取与曝光的长期不平等。模型向日常使用者展示的次数，与其他公司相比，OpenAI、Google、xAI 和 Meta 的取样率更高。（图取自研究报告）取样率反映了模型在 LMArena 中被一般使用者看到的频率，也直接决定了此模型开发者能获得多少使用者互动资料。报告发布後，OpenAI 创始成员 Andrej Karpathy 也在 X 上质疑评测公平性。他指出 Google 的 Gemini 曾在排行榜上大幅领先，但实际使用体验却不如排名较低的 Claude 3.5，怀疑 Google 等科技巨头暗中操纵结果。 LM Arena 允许公司私下测试多个模型版本引争议此外，报告还指出，LM Arena 组织允许大公司私下测试多个模型版本，却仅公开表现最佳者的成绩，对外隐藏成绩较差的版本。Cohere 副总裁 Sara Hooker 直言：「只有少数公司被告知可以进行私下测试，而且测试次数远高於其他公司，这根本是操弄游戏规则。」 025 年 1 月至 3 月统计，每个提供者的私人测试模型数量。（图取自研究报告）研究指出，Meta 在 2024 年初私下测试多达 27 个 Llama 4 模型变体，却只公布一款高分者作为官方代表，明显有选择性披露之嫌。在研究发表前不久，Meta 也曾因优化一款未公开的 Llama 4 模型，使其在 Chatbot Arena 获得亮眼成绩而引发争议。该版本未对外释出，而公开版本表现普通，强化了外界对平台公平性的疑虑。 Google 与 LM Arena 高层为平台辩护，反指研究数据有误对此，LM Arena 共同创办人、柏克莱教授 Ion Stoica 则回应道，该研究存在「多处不实与可疑分析」。官方声明则重申平台致力於公平、社群导向的评测，鼓励所有模型多次提交参赛。 Google DeepMind 首席研究员 Armand Joulin 也为平台辩护，指出报告数据不准确，Google 仅提交过一款 Gemma 3 模型进行测试，并未如报告所言反覆试验。学者呼吁增加透明度，建议公开所有私测数据研究者建议 LM Arena 应设立私测次数上限，并全面公开所有私测结果，以回应公平性质疑。对此，LM Arena 则认为「公开未释出模型的测试成绩毫无意义」，拒绝部分改革建议。尽管对於数据公开意见不一，LM Arena 对於改善模型对战次数不均的问题表示愿意接受建议，计画推出新的抽样演算法以提升公平性。值得注意的是，LM Arena 近日宣布将正式成立公司并寻求募资，引发外界对其商业化後的中立性进一步担忧。这篇研究可望成为推动评测平台改革的催化剂。《Chatbot Arena》由加州大学柏克莱分校於 2023 年启动，采用「双模型对战」的形式，让用户对比两个 AI 回答并投票选出较佳者。随着其影响力上升，成为 AI 公司展示模型实力的重要平台 https://news.cnyes.com/news/id/5957613 ----- Sent from JPTT on my Xiaomi 23090RA98G. --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 49.215.22.206 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Tech_Job/M.1746139105.A.F3E.html

1^F：推 amnotu : 美国也懂造假 122.116.6.20 05/02 11:03

2^F：→ puffs : 测试公司也要钱,有名後提供付费私下 36.229.189.138 05/02 11:26

3^F：→ puffs : 测试,很正常的.有钱就多测几次 36.229.189.138 05/02 11:26

4^F：推 ejru65m4 : 他这不是说造假是说他作弊吧223.137.172.139 05/02 11:39

5^F：→ ejru65m4 : 他的研究数据回馈比其他家更有利223.137.172.139 05/02 11:39

6^F：→ ejru65m4 : 就更有利的起点223.137.172.139 05/02 11:39

7^F：推 yueayase : 为了利益，丑陋的人性就出来了 42.75.252.252 05/02 12:46

8^F：推 wulouise : 测试有公开说是公平的吗？114.136.136.103 05/02 14:00

9^F：推 newper : 不就学生付钱参加钢琴比赛好拿成绩123.241.140.134 05/02 14:05

10^F：→ newper : 换读书成就，好申请国立大学这样123.241.140.134 05/02 14:06

11^F：推 lovebridget : 不然呢网站开了是要赚钱的价高者 101.10.3.70 05/02 14:33

12^F：→ lovebridget : 得阿 101.10.3.70 05/02 14:33

13^F：→ MTKer5566 : 不然你觉得评测软体公司要靠什麽赚 42.79.108.131 05/02 15:59

14^F：→ MTKer5566 : 钱？ 42.79.108.131 05/02 15:59

15^F：→ MTKer5566 : 当年整批人到你鲁大师里面去调校难 42.79.108.131 05/02 16:00

16^F：→ MTKer5566 : 道不用钱？ 42.79.108.131 05/02 16:00

17^F：→ MTKer5566 : 人家开冷气给我们吹难道不用钱？ 42.79.108.131 05/02 16:00

18^F：→ MTKer5566 : 不是去请对方帮我们作弊喔，是要让 42.79.108.131 05/02 16:02

19^F：→ MTKer5566 : 对方更了解我们的软硬体环境能够做 42.79.108.131 05/02 16:02

20^F：→ MTKer5566 : 出更公平的评测结果 42.79.108.131 05/02 16:02

21^F：推 Ashand : 天下乌鸦一般黑 49.216.40.145 05/03 01:28

22^F：→ Ashand : 债券评等也是让人堪忧 49.216.40.145 05/03 01:29

23^F：推 physicsdk : 美国从来都是这种假掰国家满口仁223.140.173.120 05/03 08:31

24^F：→ physicsdk : 义道德自己整天在作弊223.140.173.120 05/03 08:31

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Tech_Job 板

[新闻] AI圈爆大丑闻！研究揭Meta、Google、Open

热门看板

赞助商连结