Stock 板


LINE

"遇到任何不能解决的事情 就用C4炸弹" <谣言终结者> 在AI界这边也是 "遇到任何无法解决的事情 就用算力出奇蹟" < @v@b AI社群> (在下方任何段落 只要看到这** 就跳回来这默念这句话) #算法 从算法这边看 这阵子不论是DeepSeek也好 甚至去年之前的SSM算法 (比Transformer更具有压缩资料性) 都会塑造出算力需求是否不在重要? 又或者MoE架构(早期MoE 大模型可追朔到法国的Mistral) 在推论端都可以使用更少的 模型容量(activatino parameters) 去达到Dense 大模型效能 是否意味我们不在需要 高算力? 再抛弃算力无用论 先看往过去几个历史发展 #数据 从数据这边看 在更早之前 微软提出"Textbook is all you need" 证明数据高品质可以让 小模型3B可以接近数十B模型效能 从早期开始野生数据 到去精炼数据 都证明数据的品质决定模型的效能 那是否数据高品质 就可以减低算力需求? 然而在讲数据品质前 得先回到 数据这边的发展史 ### (赚p币 你可以跳过 没股点) 这世界充满大量无标签野生数据 而无标签的数据通常都是野生数据 并充满噪声干扰 而有标签的数据通常都昂贵 如何利用大量野生数据和少量标签数据 就变成这几年的AI算法发展史 这几年模式 通常都是第一阶段先用野生数据去做预训练 概念有点像文字接龙一样 或者挖空部分野生数据 叫模型去猜数据被消去的部分长怎样 又或者用多模态野生数据作预训练时 去比较 哪两个多模态属於同类型 哪两种多模态数据是不同类型 等等 这样训练完模型 通常就做Foundation Model 就想成初始模型 这类模型就是能从野生数据 学到分类 和预测野生数据该长怎样 但做不了任何事情 他就是只能做分类 没了 此时为了让模型做更多复杂的事情 在第二阶段训练 开始运用了高品质标签数据 这些高品质标签数据 通常都是一个特地场景 你希望模型能处理的事情 可能是文字翻译 可能是物体检测 可能是资讯搜寻和回答问题 透过数据和给的标签答案 模型学会到了 到此为止 模型还是缺乏所谓智能 无法举一反三 然後OpenAI介绍出RLHF 毕竟OpenAI 在这领域有PPO设计 这第三阶段就是所谓的透过人类给任务和人类的认知 机器去学 这阶段也可视为是一种需要答案/标签的数据反馈 透过RLHF後 模型此时展现了有扩占性和泛化等充满前景的惊人效果 但如何更好地提高模型效能? 时间线回到了2022~2023 OpenAI发现 透过模型参数变大 数据变大 此时模型的思考能力出现了涌现效果 模型大小会决定数据大小 数据大小和模型大小 决定算力需求(** @v@b 默念上面) 具体公式看这 https://blog.csdn.net/taoqick/article/details/132009733 (注:DeepSeekV3 训练成本减少是透过float8和 模型参数减少MoE架构) 接者到了2023 GPT等大模型产生後 许多AI社群开始用GPT等来造高品质的标签数据 像是LLaVA 造出300k 多模态数据 让TextLLM转变为多模态能看到影像的LLM 此时 合成数据概念出现了 (又或者称为distilled synthetic dataset) 就是透过设计任务 比方说给GPT看野生数据 像是图片或影像 叫GPT找出有车子图片 并且标注 还记得上面微软给过高品质数据 能让小模型打赢大模型吗? 於是各种用GPT去合成高品质数据文章纷纷出现 接者要来讲到Chain-of-thought这概念 在各种第一代LLM出现後 一帮人在开始研究 再不牵涉到重新去调教模型(Training)情况下 如何让模型变更聪明点? 这时候思考练概念出现 核心概念就是 把一个问题拆成子问题 让模型更好回答 比方说 你讲一句中文 然後叫你家LLM翻成英文 他很可能有时候会翻不好 因为你给的指令是要求LLM一次性的 (一步到位) 答出问题 如果用COT (Chain-of-thought) 此时你可以下指令说 先把我说的中文转成中文文字 第二步再把中文文字转成英文文字 这时候模型翻译能力品质就大幅上升 在设计拆解任务时 你也可以用比较法 比方说 你如果问LLM 我去台北最快的方式是何种? LLM可能会说 跳入虫洞就可以瞬间到台北这种幻觉回答 又或者根本打不出 而在设计COT 你可以第一步问LLM 去一个地点有哪些方法 然後第二步说 根据每个方法 估出从我现在地点到台北时间 第三步说 从里面挑出最快的方式 然後模型就能正确回答 到此为止 似乎觉得你家模型可以无成本变得很聪明了 对吧!!!然後在模型效能里面 有一个隐藏成本 叫做Infenrece Time/Latency 就是你花多少时间得到你要答案 透过拆解问题 你需要等待时间变长了 但很多场景 你希望模型快速给你答案 但你又希望答案是充满智能的回答 那该怎样办?? (** 默念上句 @v@b) 而算力大小 可以决定Latency 通常我们用Tokens/sec来衡量这指标 然後为何提到COT?因为OpenAI在去年开始把CoT融入训练一环 改进了RLHF更好的效果 拓展模型思考(reasoning)能力 现在AI界开始反思一个问题 我们能不能不需要用大量人力去做 第三步RLHF 但透过巧妙设计RL和用第一代母模型(e.g. ChatGPT)来合成有思考性质 的数据? 尤其是在第一阶段的野生数据 现实中我们已经用完了 现在需要更多的 标签数据来增加模型的效能 这个论点就是Deepseek R1想验证的 但这牵涉到好几个问题 没有第一代人类反馈LLM是无法做出来的 同时这个LLM还得是多模态能具有思考链CoT 才能合成良好的思考数据(Reasoning Sythentic Dataset) 有了这玩意 你就可以开始让模型去教模型 然後无穷回圈进化 因此你也看到李飞飞那篇是拿(gemini-2.0-flash-thinking )具有思考的来设计COT https://arxiv.org/abs/2501.19393 合成数据 这篇只使用SFT 也就是上面第二阶段 来训练模型 证明数据品质和思考重要 所以某老兄拿这篇diss 还说打不赢deepseek-r1 就是一个岳飞打张飞 因为r1有用第三步RF 这篇只是要开源合成数据 用SFT 展示合成数据品质 还疯狂diss这篇乱定义distill概念 从上上周开始 整个AI界都开始尝试研究 如何用合成数据来教导模型智慧 也就是 如何更适当的设计RL 来让模型教模型 就是走向alphago-zero概念 但没有上述这些 历史巨人肩膀 我们是无法走到这 ###赚p币结束回到股点 #算力 AI在落地端 通常是用Inference效能来决定 里面有两个重点 一个是速度已经提过 一个就是能支撑多少用户 而B200就是这两者的最漂亮的作品 参考下图 https://ibb.co/F4mXCnLd 通常算力越多 能支撑的客户请求queries就越多 速度也就越快 (** @v@b) 参照 #1crWnRFw 第二个连结 评价GB200 用户请求效能 而在训练端 Scaling Law 预测了模型大小和数据以及效能的一个线性关系 就算算法上或者数据上改进 也都只是让Scaling Law 那条斜线更加倾斜 但模型大小仍然会决定智能 因此也意味算力需求是一个线性向上 (** @v@b) ### 股点重点 ### 在讲数据中心之前 先回到AI的一个基本方向 AI就是由三个因素叠加起来 算法 资料 算力 就像三原色一样 缺一不可 算法跟资料算是每个国家都可以自己掌握 唯独算力是牵涉到基础大建设 是需要金钱和时间堆积 於是 美国第一个看到这点 开始疯狂的卷资料中心建设 阿祖的故事之前说过了 https://reurl.cc/WNmR8D 底下有个卫星空照图 https://ibb.co/y4Ww9s6 2022阿祖在盖传统数据中心 结果AI起来後 为因应AI数据中心 2023五月 阿祖直接把 盖到一半的数据中心拆掉 重新盖一次 只为了能更安装GB200 重新设计散热和电力 现在就是裁员裁员裁员 疯狂盖AI基础建设 资料中心相关 https://www.youtube.com/watch?v=UczALD7ZZDU
美国2868个 欧洲300多个 然而在AI发展起来 所有新型数据中心变得重要 所以法国开始AI资料中心项目 https://reurl.cc/6jn7mO 泰国也开始了 Siam AI 额外追加2B https://www.kaohooninternational.com/technology/552490 而中国也开始了 GDS万国数据 在马来西亚 新加波开始基建数据中心 https://www.youtube.com/watch?v=ApC9qiAT5Ew
https://www.facebook.com/watch/?v=338839389284780 https://reurl.cc/96mQlj 其余印度和中东也都开始在建设自己的AI基建算力平台 而老黄就是这波数据中心大赢家 一但新型数据中心都走老黄规格 那苏妈/ARM等三方 就会越难打这场战争 这也是为何这两家最近动作频繁在加速 老黄就算吃不到中国 也有大机会其他国家得去吃 结论:基於这接下来发展 你可以按照数据 算力 演算法三方向选公司投资 算力:老黄/AVGO 数据: Databrick(要上市了 我会买爆他) Scale AI 算法:狗家 脸家 OpenAI(买不到 @@ 考虑去那扫厕所看能不能给认股) 至於说啥AI现在是已经 轮转到投资落地场景公司 呵呵 @v@b 然後这也意味台G是一切的基石 @@ --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 172.59.161.237 (美国)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1739774611.A.966.html ※ 编辑: LDPC (172.59.161.237 美国), 02/17/2025 14:45:04 ※ 编辑: LDPC (172.59.161.237 美国), 02/17/2025 14:45:54 ※ 编辑: LDPC (172.59.161.237 美国), 02/17/2025 14:46:52 ※ 编辑: LDPC (172.59.161.237 美国), 02/17/2025 14:47:49
1F:→ lyhorcish : 还好我直接拉到最後看结论 02/17 14:47
2F:推 richer23 : 楼下帮我看 02/17 14:47
※ 编辑: LDPC (172.59.161.237 美国), 02/17/2025 14:50:41
3F:→ harry458031 : 不知道 一堆大家都听过的大公司+一间新创公司 02/17 14:50
4F:→ harry458031 : 很像诈骗集团骗人上车的手法 02/17 14:50
※ 编辑: LDPC (172.59.161.237 美国), 02/17/2025 14:54:24
5F:推 kaiyan : 是方 02/17 14:53
※ 编辑: LDPC (172.59.161.237 美国), 02/17/2025 14:56:31
6F:推 ntnuljg : 懒人包呢 02/17 14:56
7F:推 rebel : 算力还是需要的 毕竟才刚开始建设不久 但要想的是 02/17 14:56
8F:→ rebel : 所需的算力天花板是不是比原先预期的低 假设原本五 02/17 14:56
9F:→ rebel : 年才能累积到想要的算力 现在是不是三年的累积量其 02/17 14:56
10F:→ rebel : 实就够 02/17 14:56
11F:→ goodapple807: Databrick怎麽听起来怪怪的XD 02/17 14:58
12F:推 stlinman : 电脑、传统伺服器、手机...发展史,那个不是要求越 02/17 14:59
13F:→ stlinman : 高的算力跟节能(?)所以AI算力需求还是很缺。 02/17 15:00
14F:推 BPineApple : 写那麽多谁看的完 02/17 15:00
15F:推 rebel : 但不代表没天花板 看看笔电 看看手机 02/17 15:00
16F:嘘 lise1017 : 你先学会长话短说用 02/17 15:01
17F:推 pornpig32 : 99AMD 02/17 15:01
18F:推 nexerodo : 算力 算法 数据 还有能源 02/17 15:01
19F:→ zzahoward : 舅舅AMD 02/17 15:01
20F:推 ga278057 : 伊云谷呢 02/17 15:02
21F:推 tomdavis : 台湾的就算了吧 都炒作的 最快也要等美国成功才会抄 02/17 15:02
22F:→ rebel : 原po是有料的 有一堆过去的文章可印证 能不能消化 02/17 15:02
23F:→ rebel : 吸收找到赚钱的机会就看个人了 毕竟不是人人都有赚 02/17 15:02
24F:→ rebel : 大钱的能力 02/17 15:02
25F:推 edgar76321 : 还好都直接看结论 推 02/17 15:03
26F:→ tomdavis : 赚钱的方式就是相信网红说的AI算力过剩杀价竞争 02/17 15:03
27F:→ tomdavis : 反正散户还是会自己吓自己恐慌卖股 做空好赚! 02/17 15:04
28F:→ tomdavis : 而且网红还有自营操盘手一起操纵股价 卖到散户恐慌! 02/17 15:05
29F:推 TIPPK : 跟着大爷买 妻妾成群家靠海 02/17 15:05
30F:推 zqzwxec : DBR跟数据有关? 02/17 15:06
31F:推 irawang : 推是方+1 02/17 15:07
32F:推 freshman : 买台积电 02/17 15:10
33F:推 mandy38 : 谢谢解释 有学习 02/17 15:15
34F:推 u6vu040531 : 绿电啊 怎麽没人提 02/17 15:17
35F:推 Kevinsun : 写的很好 02/17 15:23
36F:推 strlen : https://tinyurl.com/ytx2ap2s 不是有AI 还问懒人包 02/17 15:23
37F:推 kausan : 没gtp第一步就不会有other但现在other也有机会干掉g 02/17 15:26
38F:→ kausan : tp,关键就是算力 02/17 15:26
39F:推 aa6300158 : 好文推,有看完。 02/17 15:26
40F:推 sdbb : 99nvdl 02/17 15:34
41F:推 EDhsiao : 好文不推不行 02/17 15:36
42F:推 ola1a1217 : 感谢业界人士分享~ 02/17 15:37
43F:推 metallolly : 好~我也要买爆 Databrick 02/17 15:38
44F:推 kami0857 : 谢分享 02/17 15:40
45F:推 sdbb : 对,应该要找尚未被炒高的股票 02/17 15:40
46F:→ sdbb : Databricks 02/17 15:41
47F:→ sdbb : 复数,有s 02/17 15:43
48F:推 chehsien : Databricks真的买爆 MongoDB 资料库公司怎麽看? 02/17 15:45
49F:推 hprince : 微软跟open ai有关系买微软也可以吧? 02/17 15:56
50F:推 Cash : databricks j轮募资有meta,值得期待 02/17 16:15
51F:推 josephpu : 推分享 02/17 16:17
52F:推 spike1215 : 美国大爷QQ 02/17 16:21
53F:推 fluffyradish: 最後一句重点 02/17 16:25
54F:推 pc007ya : 是方 是圆 继续化缘 02/17 16:32
55F:推 a125wind : 感谢分析,等databrick IPO 02/17 16:34
56F:推 yesmans : 这麽好的文章 不推爆吗!! 02/17 16:37
57F:推 wahaha99 : 可是板上会有人说这些是空中楼阁 XDDD 02/17 16:40
58F:推 HenryLin123 : NVDL都回60几了还要救? 02/17 16:41
59F:嘘 PureAnSimple: 算力永远不嫌多 根本不用分析 02/17 16:43
60F:推 roots5071 : 写的很好,但是我看不懂,买就对了! 02/17 16:54
61F:→ emind : thesis: scaling law persists. until … 02/17 17:13
62F:推 CCPenis : 我只懂最後 02/17 17:29
63F:推 l145678p : 谢谢分享 02/17 17:59
64F:推 c928 : 复制贴上真好用 02/17 17:59
65F:推 bobovillage : 感谢 02/17 18:59
66F:推 Elier87 : 受益良多,谢谢分享 02/17 19:11
67F:推 WD640G : 优文谢谢 02/17 19:15
68F:推 linweida : 最後一句话我看得懂哈哈 02/17 19:38
69F:推 Alexstar : Databrick何时上市,需要抠讯? 02/17 19:49
70F:推 fdkevin : 推爆 02/17 20:09
71F:推 ilikekobe01 : 好文给推 02/17 20:09
72F:推 jerrychuang : 没有MU,QQ 02/17 20:18
73F:推 ppuuppu : 不推不行 02/17 20:30
74F:→ jo4 : 感谢抠讯 我也想跟单 02/17 20:43
75F:推 necrophagist: 写得很好 不是做这行的也能读懂七八成 02/17 20:47
76F:推 MiniArse : 真有心 写这麽多 XD 02/17 22:20
77F:推 apple123773 : 推 02/17 22:27
78F:推 jyhfang : 棒 整个脉络清楚呈现 谢大大分享 02/17 23:48
79F:推 LINPINPARK : 资料中心我看香港房地产基金有去投日本 02/18 00:09
80F:→ LINPINPARK : 在日本要盖一个40兆万的园区 02/18 00:10
81F:→ LINPINPARK : 叫做 日本 府中园区 02/18 00:11
82F:→ LINPINPARK : 请教日本资料中心这方面有什麽优势? 02/18 00:11
通常资料中心就是房地产的好商机 Blackrock都在抢土地和抢电跟水协调 日本大概也是会走类似路线 府中园区是透过万国数据去合作 @@ 其余就不清楚了 https://hk.investing.com/news/stock-market-news/article-551210 https://finance.sina.com.cn/jjxw/2024-12-30/doc-inecfrav1288874.shtml https://uanalyze.com.tw/articles/412077094 通常每个国家都要自己的新型数据中心 只要有大量地 水和便宜电 那通常就是个好地点 ※ 编辑: LDPC (76.21.72.78 美国), 02/18/2025 02:57:16 ※ 编辑: LDPC (76.21.72.78 美国), 02/18/2025 03:00:28 ※ 编辑: LDPC (76.21.72.78 美国), 02/18/2025 03:01:47
83F:推 lester0311 : 推 02/18 09:12
84F:推 vzQBf : 难得有非政治网军的文章QQ 02/18 19:06
85F:推 LINPINPARK : 原来如此,感谢,那看起来日本水电配套都做得很好, 02/18 20:21
86F:→ LINPINPARK : 招商较顺 02/18 20:21
87F:推 sean667cd : 推薯条王者LD ~ 感谢分享! 02/20 20:27
88F:推 aspirev3 : 请问有机会多介绍databricks 吗 02/21 23:20







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Soft_Job站内搜寻

TOP