Re: [心得] WWDC24节录-系统级个人助理面世

时间Thu Jun 13 02:07:36 2024

自己回自己的文，给想进入AI生活的人一点知识科普，顺便辟谣一下网路上漫天飞的错误资讯。＝＝＝个人装置跑『大模型、小模型』，大小如何定义？以下节录台大洪教授的脸书文字内容： https://www.facebook.com/share/8EmqkoYmn8j9mstY/ 在个人装置上跑大小型语言模型驱动当今AI服务的核心引擎是大型语言模型（LLM），但这类名词就像大数据（Big Data ）一样，对於所谓的「大」，并没有明确的定义，因此往往被错误或浮滥使用。这篇就来谈谈语言模型的大小，以及在现在的个人装置上能跑多大的语言模型。话说，GPT2在2019年出现江湖时，是当时最大的LLM，不过它1.5B的参数量[1]，还不到20 20年GPT3的175B参数的百分之一，当然就更不用跟现在的GPT4比大小了。这些「比较小的大型语言模型」也是有用的，因为有成本低、速度快的优势。但「比较小的大型语言模型」这样称呼实在蛮矛盾诡异的，所以最近有人开始使用「小型语言模型」（SLM）这个名词来称呼之，但千万不要以爲SLM真的小。今年四月发布的Llama3，有三个训练好的开源版本：8B、70B、400B，不过其中400B的版本说是敬请期待，还没有实际释出[2]。如果以此为参考基准，8B的版本可算是SLM，400B 是LLM，那介於其中的70B该算SLM还是LLM，或者称之为MLM？先不管称呼的问题，虽然大小不同，这三款语言模型都使用15T tokens的资料集进行训练，据说训练过程总共花了100,000 petaFLOPS-day的大算力[2]。训练8B的模型花了1,300, 000 GPU hours，排放了390吨的二氧化碳；训练70B的模型花了6,400,000 GPU hours，排放了1900吨的二氧化碳[3]。Meta用的是最新的Nvidia H100 GPU ，每张耗电700瓦。想从零开始训练模型的话，得先盘点一下，自己的手上有多少训练资料，再评估一下能否负担这些算力的需求。不过我觉得Meta公开的算力需求有点少，应该没有把失败的过程算进来，或许是不想让碳排放量看起来太高。架构和源头相同的模型，才能这麽比较。据说Llama3的8B模型的能力约略可与Llama2的70 B模型抗衡，因为Llama2的训练资料集「只」有2T tokens [3]。Meta在发表Llama3的时候也跟其他公司的模型比较[4]，但参考这种评比结果时要小心，因为厂商通常都只报喜不报忧，开发者最好是拿自己应用的情境去实际测试。这阵子厂商猛推的AI PC、Copilot Windows、On-Device AI，标榜在个人装置上跑AI，对应用开发者和使用者来说，AI的能力越强越好，但这些装置上究竟跑得动多大的语言模型呢？首先要看的是记忆体的容量。 SLM的问题较小。以Llama3的8B开源模型为例，下载标准的16位元浮点数（FP16）版本，每个参数需要2个bytes，如果要把8B的参数都放进记忆体的话，记忆体的容量大概要16GB ，因此目前的AI PC的最低规格16GB是勉强堪用的。若是记忆体不够用，计算的过程就可能会变得很慢。软体的解法是把模型压缩得更小一些，例如用FP8或INT8取代FP16，参数所需的记忆体空间就减半，但这麽一来会让模型变笨。但应用开发者可以将压缩变笨的模型再做一些特训，让它在特定应用领域上表现称职，这就是之前讲过的专家模型。不想让模型变笨，硬解的方法是增大记忆体容量。CPU的记忆体容量更大，能够放进更大的模型。FP16的Llama3 70B模型概算需要140GB，大概会超出一般的个人电脑的记忆体容量。工作站和伺服器可以放进几个TB的记忆体，但是用CPU来跑这个规模的LLM实在太慢，性价比也很低，通常会用NPU或GPU。 PC上加装的独立显卡上有GPU专用的记忆体，其容量决定了可执行的模型大小。高阶游戏显卡配备16GB以上的记忆体，应该跑得动Llama3 8B，但Nvidia和AMD最高阶的游戏显卡不约而同都只给到24GB，所以不要幻想在游戏显卡上能把原版的Llama3 70B跑好。但即便是目前市场上最大专业显卡，Nvidia的H100，每张显卡上的记忆体也只有80GB，还是放不进原版的Llama3 70B，又不想让模型变笨，那该怎麽办？答案是把模型拆开来，用多张显卡一起跑。两张80GB版本的A100或H100，记忆体合计160GB就够了，但所费不赀。有人想用6张24GB的RTX4090显卡来做这件事，但这些卡需要透过PCIe介面交换资料的负担会让速度降低不少。其次是记忆体的频宽。很多人使用GPU跑LLM，不只因为GPU算力高，而且也因为GPU用上了比CPU频宽高出一大截的记忆体。RTX 4090的记忆体频宽是1TB/s，而Intel Core Ultra 7 165H的记忆体频宽只有120GB/s，足足差了8倍。概算一下，要让Core Ultra 7读一遍140GB的模型参数，就要超过一秒钟！这样要如何即时反应？如果每处理一个token都要再读一遍，那还得了。当然软体上会做一些优化，尽可能利用已经从记忆体读进来的参数，不要让每个token进来後都要重复再读同样的参数，因此优化的技术相当重要，但先天记忆体频宽的差异还是会有显着的影响。要知道GPU架构设计的理念和CPU先天上不同，非常重视高频宽，而CPU比GPU在存取记忆体的时候更重视低延迟。很现实的问题是，如果高频宽和低延迟都要最好的话，那就会变得很昂贵。 [1] B是Billion的缩写，10的9次方，也可以用G或Giga来代表。T是Trillion或Tera的缩写，10的12次方。P是Peta的缩写，10的15次方。 [2] https://en.wikipedia.org/wiki/Llama_(language_model) [3] https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md [4] https://techcrunch.com/....../meta-releases-llama-3....../ ＝＝＝Ｑ：阿婆这次的3B模型是不是自己的？Ａ：是，有开源在网路上。 https://machinelearning.apple.com/research/openelm 苹果在四月的时候给自己发了个搞，说明自己开源的OpenELM是为一种开放式训练及推理框架的高效率语言模型。里面有附上原始码页面在GitHub上面，以及在AI讨论区Hugging Face上。 https://github.com/apple/corenet https://huggingface.co/apple/OpenELM ＝＝＝ Q：阿婆完全照搬OpenAI的GPT模型吗？ A：没有，这次提供的是本地自家模型以串接的方式连动GPT模型，也提供用户关闭此功能的选项。＝＝＝ Q：除了本机端上的模型，发表会还有提到苹果自家的私有云端伺服器？ A：是，相较於本机端的模型，阿婆保证自己的资料不会储存在云端上，也保证一定程度的隐私，比较像是私有云端预训练一个模板，提供一定程度的格式回答，而空格填入使用者隐私资讯的方式连动。＝＝＝ Q：干嘛不下放到A14以後的晶片使用？ A：除开NPU算力足够以外，对於AI自然语言模型的关键还是在於记忆体大小，去年发表会只有iPhone 15 Pro有达到8GB记忆体门槛，其余以下设备未达的情况下，阿婆想保证这项 AI使用顺畅易用，就只有提高使用门槛，毕竟在此之前iPhone等终端设备也有一些AI应用（非生成式模型推理），势必占用记忆体，我想阿婆有所考量。＝＝＝Ｑ：这次的AI相比他牌的AI有什麽优势？Ａ：其实发表会反覆提及到App Intents API，这个API直接决定了未来Siri能否达成非常顺滑的使用体验，毕竟这种系统底层的权限，现在只有封闭环境的阿婆有办法大力整合推行。而且之後的开发者统一指标就是能否透过这个API让系统得以间接使用手机内既有的资讯跳转。阿婆在发表会後半段也有初步演示如何透过一段对话得知过往在终端内的资讯（飞机资讯那段）。＝＝＝Ｑ：中文的AI应用还要等明年，何时也没说清楚，到时早就被超车？Ａ：虽说科技这门就是先上车占有先机就有优势，但演算法每天每周每月也都会有新的改进更新，是否被超车，我觉得阿婆在发表会里面已经先竖立自己对於这个苹果智能的目标了，也就是那五大宗旨。而且阿婆很明显不会想跟进OpenAI的训练方式去对待自己的模型，有违他们的愿景（不外乎就是资料来源跟隐私的问题）＝＝＝现在WWDC也还没结束，何况英文版预计秋季才开放，还有很多消息等落地的。 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 218.166.133.140 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/iOS/M.1718215662.A.7C3.html

1^F：推 Ereinion9895: 帮翻译：之前的ai都只是花拳绣腿，现在苹果自身ai+ 06/13 03:17

2^F：→ Ereinion9895: gpt，系统级ai屌虐众生！蹲那麽久就是为了给最好！ 06/13 03:17

3^F：推 callmedagg: 好好一篇科普文结果第一个回覆就是这种东西 06/13 03:59

4^F：推 kyle5241: iPad Pro 12GB Ram 中隐藏的4GB感觉就蛮适合放模型 06/13 06:22

5^F：→ kyle5241: 的 06/13 06:22

6^F：推 AmigoSin: https://apple.co/3KDa4vI 06/13 07:48

7^F：→ AmigoSin: 3B+参数量化+各种压缩技巧才能跑在iphone上 06/13 07:49

8^F：→ AmigoSin: 苹果和主流LLM通才路线不一样，走的是finetune专才路线 06/13 07:50

9^F：→ AmigoSin: 所以不用期待siri会多聪明多冷门的资讯都能回答 06/13 07:51

10^F：→ AmigoSin: 但是常见的summarization可以做的很不错 06/13 07:51

11^F：推 xoy: 原本期待统一记忆体架构能让苹果的AI在记忆体较足(>=16GB)的 06/13 08:01

12^F：→ xoy: Mac上让GPU NPU伸展手脚，看起来在统一电脑平板手机使用体验 06/13 08:01

13^F：→ xoy: 的前提下不得不将就苹果平板手机都不是很普遍的8GB RAM 06/13 08:01

14^F：→ square4: 补充：https://i.imgur.com/GlANIcI.jpeg 06/13 13:59

15^F：→ square4: 而且这个萤幕识别应该会跟rewind ai类似，是持续纪录使 06/13 14:07

16^F：→ square4: 用状态的重要讯息，而非画圈搜索仅针对单张截图去识别 06/13 14:07

17^F：→ square4: https://i.meee.com.tw/AZi1fTc.jpg 06/13 14:07

18^F：→ ck574b027: 钱这麽多才3B喔，真的有够抠 06/13 17:30

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

iOS 板

Re: [心得] WWDC24节录-系统级个人助理面世

热门看板

赞助商连结