作者zaiter (zaiter)
看板Tech_Job
标题[新闻] AI圈爆大丑闻!研究揭Meta、Google、Open
时间Fri May 2 06:38:23 2025
评测网本来就要赚钱 这也很正常
AI圈爆大丑闻!研究揭Meta、Google、OpenAI在Chatbot Arena上「作弊」
钜亨网编译庄闵棻 综合报导2025-05-01 21:12
AI圈爆大丑闻,研究揭Meta、Google、OpenAI在Chatbot Arena上「作弊」。(图:Shutterstock)
来自人工智慧(AI)实验室 Cohere、史丹佛大学、麻省理工学院(MIT)与知名 AI 研究机构 AI2 的最新研究指出,知名 AI 测试平台《Chatbot Arena》疑似对 Meta(META-US) 、OpenAI、Google (GOOGL-US) 与亚马逊 (AMZN-US) 等大型科技公司提供不对等的测试机会,藉此提升其排行榜成绩,影响评测公信力。
据报导,透过分析五个月内超过 280 万场模型对战纪录,研究发现 Meta、OpenAI 与 Google 的模型曝光率远高於其他厂商,有更多机会收集用户回馈并优化模型。
研究团队还发现,封闭商业模型如 Google 与 OpenAI,在平台上的出战次数明显高於其他模型,相较之下,开源模型的曝光率低,甚至容易遭到移除,形成资料存取与曝光的长期不平等。
模型向日常使用者展示的次数,与其他公司相比,OpenAI、Google、xAI 和 Meta 的取样率更高。(图取自研究报告)
取样率反映了模型在 LMArena 中被一般使用者看到的频率,也直接决定了此模型开发者能获得多少使用者互动资料。
报告发布後,OpenAI 创始成员 Andrej Karpathy 也在 X 上质疑评测公平性。他指出 Google 的 Gemini 曾在排行榜上大幅领先,但实际使用体验却不如排名较低的 Claude 3.5,怀疑 Google 等科技巨头暗中操纵结果。
LM Arena 允许公司私下测试多个模型版本引争议
此外,报告还指出,LM Arena 组织允许大公司私下测试多个模型版本,却仅公开表现最佳者的成绩,对外隐藏成绩较差的版本。Cohere 副总裁 Sara Hooker 直言:「只有少数公司被告知可以进行私下测试,而且测试次数远高於其他公司,这根本是操弄游戏规则。」
025 年 1 月至 3 月统计,每个提供者的私人测试模型数量。(图取自研究报告)
研究指出,Meta 在 2024 年初私下测试多达 27 个 Llama 4 模型变体,却只公布一款高分者作为官方代表,明显有选择性披露之嫌。
在研究发表前不久,Meta 也曾因优化一款未公开的 Llama 4 模型,使其在 Chatbot Arena 获得亮眼成绩而引发争议。该版本未对外释出,而公开版本表现普通,强化了外界对平台公平性的疑虑。
Google 与 LM Arena 高层为平台辩护,反指研究数据有误
对此,LM Arena 共同创办人、柏克莱教授 Ion Stoica 则回应道,该研究存在「多处不实与可疑分析」。官方声明则重申平台致力於公平、社群导向的评测,鼓励所有模型多次提交参赛。
Google DeepMind 首席研究员 Armand Joulin 也为平台辩护,指出报告数据不准确,Google 仅提交过一款 Gemma 3 模型进行测试,并未如报告所言反覆试验。
学者呼吁增加透明度,建议公开所有私测数据
研究者建议 LM Arena 应设立私测次数上限,并全面公开所有私测结果,以回应公平性质疑。对此,LM Arena 则认为「公开未释出模型的测试成绩毫无意义」,拒绝部分改革建议。
尽管对於数据公开意见不一,LM Arena 对於改善模型对战次数不均的问题表示愿意接受建议,计画推出新的抽样演算法以提升公平性。
值得注意的是,LM Arena 近日宣布将正式成立公司并寻求募资,引发外界对其商业化後的中立性进一步担忧。这篇研究可望成为推动评测平台改革的催化剂。
《Chatbot Arena》由加州大学柏克莱分校於 2023 年启动,采用「双模型对战」的形式,让用户对比两个 AI 回答并投票选出较佳者。随着其影响力上升,成为 AI 公司展示模型实力的重要平台
https://news.cnyes.com/news/id/5957613
-----
Sent from JPTT on my Xiaomi 23090RA98G.
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 49.215.22.206 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Tech_Job/M.1746139105.A.F3E.html
1F:推 amnotu : 美国也懂造假 122.116.6.20 05/02 11:03
2F:→ puffs : 测试公司也要钱,有名後提供付费私下 36.229.189.138 05/02 11:26
3F:→ puffs : 测试,很正常的.有钱就多测几次 36.229.189.138 05/02 11:26
4F:推 ejru65m4 : 他这不是说造假 是说他作弊吧223.137.172.139 05/02 11:39
5F:→ ejru65m4 : 他的研究数据回馈比其他家更有利223.137.172.139 05/02 11:39
6F:→ ejru65m4 : 就更有利的起点223.137.172.139 05/02 11:39
7F:推 yueayase : 为了利益,丑陋的人性就出来了 42.75.252.252 05/02 12:46
8F:推 wulouise : 测试有公开说是公平的吗?114.136.136.103 05/02 14:00
9F:推 newper : 不就学生付钱参加钢琴比赛好拿成绩123.241.140.134 05/02 14:05
10F:→ newper : 换读书成就,好申请国立大学这样123.241.140.134 05/02 14:06
11F:推 lovebridget : 不然呢 网站开了是要赚钱的 价高者 101.10.3.70 05/02 14:33
12F:→ lovebridget : 得阿 101.10.3.70 05/02 14:33
13F:→ MTKer5566 : 不然你觉得评测软体公司要靠什麽赚 42.79.108.131 05/02 15:59
14F:→ MTKer5566 : 钱? 42.79.108.131 05/02 15:59
15F:→ MTKer5566 : 当年整批人到你鲁大师里面去调校难 42.79.108.131 05/02 16:00
16F:→ MTKer5566 : 道不用钱? 42.79.108.131 05/02 16:00
17F:→ MTKer5566 : 人家开冷气给我们吹难道不用钱? 42.79.108.131 05/02 16:00
18F:→ MTKer5566 : 不是去请对方帮我们作弊喔,是要让 42.79.108.131 05/02 16:02
19F:→ MTKer5566 : 对方更了解我们的软硬体环境能够做 42.79.108.131 05/02 16:02
20F:→ MTKer5566 : 出更公平的评测结果 42.79.108.131 05/02 16:02
21F:推 Ashand : 天下乌鸦一般黑 49.216.40.145 05/03 01:28
22F:→ Ashand : 债券评等也是让人堪忧 49.216.40.145 05/03 01:29
23F:推 physicsdk : 美国从来都是这种假掰国家 满口仁223.140.173.120 05/03 08:31
24F:→ physicsdk : 义道德自己整天在作弊223.140.173.120 05/03 08:31