Re: [新闻] OpenAI：已掌握DeepSeek盗用模型证据

时间Thu Jan 30 01:49:14 2025

我先讲我非AI专业但这件事情基本就是鬼扯甚麽叫做利用O1蒸馏出R1 你要用API抓多少资讯量跟TOKEN才做得出来然後这件事情OPENAI还会不知道? 这是GPT回我的透过 API 硬训练一个能够与 GPT-4 相媲美的模型，基本上是不可能的，原因如下： 1. 训练大规模语言模型（LLM）的数据量极大 GPT-4 这种级别的模型通常训练数百亿到数兆个 Token。以 OpenAI 的 GPT-4 为例，其训练数据量非常庞大，远超 API 能够提供的输出量。如果一家公司试图透过 API 蒐集足够的数据来训练一个类似的模型，会面临几个根本性的问题： Token 成本极高：假设要训练一个类似 GPT-4 的模型，至少需要数千亿到数兆级的 token。但 OpenAI API 计价昂贵，以 GPT-4 Turbo（8k）为例： 1k tokens 输入约 $0.01，输出 $0.03 假设要获取 1 兆 tokens（这仍远低於 GPT-4 训练的规模）：输入成本：$10M（1 千万美元）输出成本：$30M（3 千万美元）这还只是获取数据的成本，并未包含训练成本！训练硬体需求极高： GPT-4 级别的模型训练需要数万到数十万张 A100 或 H100 GPU，加上分布式计算架构、强大的基础设施（如 TPUs、NVLink、高速存储等）。目前，只有少数科技巨头（OpenAI、Google DeepMind、Anthropic、Meta）有这种算力。 2. OpenAI 及其他 API 提供者会限制速率 OpenAI、Anthropic、Google 都有 API 速率限制，防止这种大规模查询行为。例如： API 请求有速率上限，即便是企业级客户，也不可能无限次查询。 OpenAI 可侦测异常流量模式，如果一个帐户开始以异常高频率查询，可能会被封锁或调查。 API 可能有内建的水印技术（Watermarking），能够识别是否有人尝试透过 API 逆向工程训练模型。 3. 透过 API 训练的模型质量很差即使绕过上述问题，透过 API 获取的只是模型的输出（Soft Labels），而不是完整的训练数据，导致以下问题：知识有限：API 只能回传有限的内容，而 GPT-4 是基於更大的数据集（书籍、论文、网站等）训练的，无法还原原始的知识基础。风格模仿但泛化能力差：学生模型可能可以模仿 GPT-4 的回应风格，但缺乏真正的理解与推理能力。无法获取内部权重与梯度更新：深度学习模型不只是靠输入与输出，还需要内部梯度更新来调整权重，而 API 无法提供这种资讯。 4. 真正可能的「轻量级蒸馏」方式尽管完全复制 GPT-4 几乎不可能，但仍有一些可能的方式来部分学习闭源模型的行为：小规模指导性训练（Fine-tuning）：例如 Stanford Alpaca 项目，就是利用 GPT-3.5 API 生成了一小部分数据（5 万条样本），用来微调 LLaMA 7B，但它的能力远远比不上 GPT-4。增强式学习（Reinforcement Learning with AI Feedback, RLAIF）：透过 API 让 GPT-4 帮助标注「哪个回应比较好」，然後用这些标注来强化一个开源模型，例如 LLaMA 或 Mistral。少量特定领域资料的风格模仿：例如用 GPT-4 API 生成一个领域（如医疗、法律）的数据集，然後训练一个专门的 AI，这样的应用可能不会违反 OpenAI 的 ToS，但也无法真正模仿 GPT-4 的泛用能力。结论完全透过 API 逆向工程 GPT-4 来蒸馏一个相似的模型，基本上是不可能的。 API 成本极高，训练 GPU 资源需求极大，让这种方式在现实中难以执行。 OpenAI、Anthropic 等公司有 API 速率限制与异常行为侦测，防止这种滥用。即使透过 API 硬撑出一个模型，它的泛化能力、理解能力都远不如 GPT-4。真正有效的方法还是依赖开源模型（如 LLaMA 3、Mistral 7B）或自己收集高质量的语料来训练，而不是试图从 API 硬抄模型的知识。说穿了要是这件事情这麽简单 O1早就被美国其他AI公司抄爆了好吗拜托一点要抄到整个模型这成本要多高? 重点还要刷到你openai不知道这难度比绑架土耳其人还难巴 ※ 引述《LDPC (Channel Coding)》之铭言： : 现在全网路上的开源数据资料是属於pre-training端大多都是野生数据无标签 : 那东西只是让模型去向鹦鹉一样去做文字接龙 : 但第二阶段训练会用到RLHF (Reinforcement Learning from Human Feedback) : 就是要人类针对不同数据给意见这个是要给标签 : 所以你才会听到狗家之前要求全公司员工去给意见让Gemini前身 Bard 去做人类feedback : 这个人工成本是很大 : Deepseek-R1跟大家说我们不用人类给的feedback了我们可以免除这块 : 大家都在讨论的叫做sythetic dataset : 这个步骤是来自於你有许多野生数据但需要加上标签那标签可以拿更强大模型来标注 : 比方说一道数学题目你可以用人类写解答或者要拆步骤每步骤让gpt-4o写个答案 : 这就是所谓synthetic dataset 然後用这组数据去调教模型这步骤会决定 : 你的模型多智能这过程就是call api 现在ai界都这样干缺点就是训练模型上限就是 : 原始母模型这跟传统蒸留用模型直接交模型不太依一样 : 这种方式就是可以用低成本接近gpt-4o 但你如果这样干你模型就不能商业化 : 顶多发表到文章讲你这是怎样做最经典例子就是LLaVA那篇讲如何用gpt4o : 产生sythetic dataset让textLLM 变成多模态直接打爆其他大厂高成本多模态 : 之前网路上已经有人在讨论到底deepseek有没有用api去合成数据 : https://reurl.cc/A6ab98 : https://x.com/bboczeng/status/1883374489519698413 (zero是r1第一版) : 但这思路还是有可取之处就是模型教模型不要再用人类RLHF去教模型 : https://x.com/op7418/status/1884065603184681162 : 这有点像回到当年alphago那条路线模型互相教 : 下面网址是第三方大家要复制deep-seek R1开源计画任何人想参加都可以 : https://huggingface.co/blog/open-r1 : 目前公认是dep-seek R1隐藏了 : Replicate the R1-Distill models by distilling a high-quality : reasoning dataset from DeepSeek-R1. : 上面专案在徵求大家尝试去制造出合成数据 : 好了我要去炸薯条了 @@/ 救救我 : ※ 引述《IBIZA (温一壶月光作酒)》之铭言： : : 各家互相参考, 指的是训练方法还有训练的文本挑选, 蒸馏不太一样 : : AI = 模型的程式码+训练 : : 能开源的部分只有程式码, 训练是看各自调教 : : 模型的能力够, 差不多的调教方式就会得到差不多的结果 : : 训练方法更好, 或是文本品质越高、越多样、量越多, 模型就越强 : : 自从OpenAI爆红以来, 大公司的LLM模型都是遵循OpenAI的训练方法 : : 预先训练: 拿大量文本让AI模型学习基本语言能力、基本知识 : : 监督微调: 有了基本能力之後, 模型开始有推理能力 : : 这时候由人类介入, 告诉模型怎麽想是对的, 怎麽想是错的 : : 之前所谓的贴标签, 就是这个阶段 : : 奖励建模: 把对错的判断建立模型, AI想对了, 这个模型就奖励他 : : 强化学习: AI自己跟自己练习 : : 不管是meta还是google, 之前都是照OpenAI这个成功模式做 : : 所以这些公司能做的就是拚算力, 透过更大量的训练, 希望最终可以暴力超车 : : 但蒸馏就不同, 蒸馏是直接拿另一个模型的推理结果, 让另一个模型照着得到同样结果 : : 譬如我要我刚刚问ChatGPT, 要他给举例说明什麽是拟人法 : : 他的回答是这样 : : https://i.imgur.com/ey5mX61.png : : ChatGPT要回答这个问题, 中间要经过很多推理, 譬如他要先理解我的问题 : : 这里面就牵涉到, 他要理解我讲的拟人法是修辞当中的拟人法 : : 然後再从这一个理解, 去思考拟人法的意思是甚麽, 最後再想出一个符合范例 : : 蒸馏的话, 就是学生模型已经预先知道这个问题的答案是甚麽 : : 有头有尾, 要生出中间的推理就会比较容易 : : 但这里有个问题 : : 你要用蒸馏让一个模型得到另一个模型类似的能力 : : 通常就是需要老师模型产生极大量的练习後结果 : : 才能传授毕生功力给学生模型 : : 如果ChatGPT是开源模型, 可以自己部署在自己平台上 : : 要做这样大规模训练是有可能 : : 但ChatGPT无法部署在自己平台 : : (刚刚有人说ChatGPT 2可以, 但蒸馏顶多只能逼近老师, 用ChatGPT 2只能蒸出垃圾) : : 所以要做蒸馏只能透过API, 而要透过API做几千万甚至几亿规模的蒸馏训练 : : 这难度极高啊.... : : (ChatGPT刚刚教我另一个方法 : : 就是拿一个原本就有ChatGPT4能力的模型 : : 这样只要少量训练, 就能超越ChatGPT 4 : : 但原本就有ChatGPT 4能力的新模型难道自己会生出来吗XD : : 你还是得先得到这个模型啊...就是V3 : : 那V3怎麽来?) --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.37.73.106 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1738172956.A.F65.html

1^F：嘘 opthr1215 : 你的第一句...... 01/30 01:50

你是ai专业吗? ※ 编辑: dreambreaken (114.37.73.106 台湾), 01/30/2025 01:50:52

2^F：→ keke0421 : 你都说你非专业你的推论有啥证据力？ 01/30 01:51

你只要有基本的逻辑常识就可以知道这件事情蠢到跟猪一样 ※ 编辑: dreambreaken (114.37.73.106 台湾), 01/30/2025 01:51:46

3^F：→ chordate : 他又不是说DeepSeek只用了ChatGPT的feedback去蒸馏 01/30 01:53

4^F：→ chordate : 当然一样有用原始的文本，但是在训练上使用ChatGPT 01/30 01:54

5^F：→ chordate : 给reward 01/30 01:54

首先 1.我要花钱用你的api跟你买你所谓的reward 这要花多少钱? 2.我花钱用你的api串你全世界跑完的data 这件事情openai会完全不知道真的笑死人 ※ 编辑: dreambreaken (114.37.73.106 台湾), 01/30/2025 01:57:10

6^F：→ newwu : 不要再用问llm 来发表高见了看了好烦，明明就不懂 01/30 01:58

7^F：→ newwu : ，还硬要用可能错误的资料来讲得好像很懂一样... 01/30 01:58

你厉害可以回一篇来蚊香阿

8^F：嘘 MoonCode : 你不是专业的话只少要有单吧xD 01/30 01:59

※ 编辑: dreambreaken (114.37.73.106 台湾), 01/30/2025 02:00:01 ※ 编辑: dreambreaken (114.37.73.106 台湾), 01/30/2025 02:00:14

9^F：→ ksjr : 不过上一篇的r1是说有可能的gpt说不可能这好像代表 01/30 02:04

10^F：→ ksjr : 了什麽XD 01/30 02:05

11^F：嘘 H072 : 最近很多政治狂热者来 01/30 02:10

12^F：→ zpeople0116 : 不问政治的话，DS还蛮好用的，便宜治百病 01/30 02:15

13^F：推 takase : 前一篇讲很详细了 01/30 02:20

14^F：→ takase : 别急，太急就露馅了 01/30 02:20

你如果仔细看过他最後连结就知道他那个单纯就是在黑而已这麽简单他不去复制o1甚至之後的o3 去复制r1做甚麽你把你们论述直接拿去问o1不就知道了 ※ 编辑: dreambreaken (114.37.73.106 台湾), 01/30/2025 02:27:21

15^F：→ ImHoluCan : 好了啦Nvidia 40块见 01/30 02:36

16^F：推 ohlong : 没仔细算过但是看完你讲的论点算一算应该是真的不 01/30 06:03

17^F：→ ohlong : 可能有人说套api 都开源了更不可能所以最後只能 01/30 06:03

18^F：→ ohlong : 猜是有很了解o1架构跟训练方式的人跳槽过去 01/30 06:03

19^F：推 ohlong : 用极低的关键数据量去reward r1 01/30 06:42

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Stock 板

Re: [新闻] OpenAI：已掌握DeepSeek盗用模型证据

热门看板

赞助商连结