作者pacino (扫地僧)
看板Stock
标题Re: [新闻] 博通报喜 ASIC台厂有看头
时间Mon Dec 16 08:25:16 2024
ASIC 应该是主要用在inference.
Inferrence晶片的复杂度没像training 晶片那麽高。
NVDA在资料中心的霸主地位,目前还没有看到威胁。
Device端的推论, 竞争者有几家, 最後就是杀价竞争。
结论: Strong 拜 NVDA
chatgpt的分析如下:
Inference(推论)和 Training(训练)在深度学习中的晶片设计存在一些显着差异,主要是由於两者的计算需求和工作负载特性不同。以下是它们的关键差异:
1. 计算类型需求
Training:
训练需要执行大规模的矩阵运算(如前向传播、反向传播和梯度更新),这涉及到大量的浮点数运算(特别是 32-bit 或 16-bit 浮点数)。
训练需要支持高精度和高吞吐量的运算,以保证模型的学习效果。
Inference:
推论通常关注延迟(latency)和能效(power efficiency),需要更快但稍微低精度的运算(如 INT8 或 BF16)。
计算需求相对较少,更多依赖优化的推论加速和模型压缩技术。
2. 记忆体需求
Training:
训练时需要存储和操作巨大的参数矩阵、中间激活值和梯度。
需要非常高的记忆体频宽和容量来支持多层模型的并行运算。
Inference:
推论只需要读取已训练好的模型参数和执行前向传播,所需记忆体更少。
记忆体频宽需求较低,但对於较大的模型可能仍需优化记忆体访问。
3. 架构设计
Training:
训练晶片(如 NVIDIA A100、H100,TPU v4)通常设计为通用型,支持多种运算需求(矩阵计算、高精度浮点运算等)。
晶片内有更多的计算单元(如 Tensor Core 或 Matrix Processing Units)和更大的记忆体(如 HBM)。
Inference:
推论晶片(如 NVIDIA T4、Jetson Orin,TPU Edge)通常针对低功耗和实时性进行优化。
设计更专注於 INT8 或类似格式的低精度运算,加速特定操作如卷积和激活函数。
4. 功耗和散热
Training:
训练晶片通常功耗较高,因为需要处理高吞吐量的计算任务。
设备多部署於资料中心,配备强大的散热和供电系统。
Inference:
推论晶片针对能效进行优化,功耗较低(特别是在边缘设备上)。
更适合嵌入式或移动设备环境。
5. 部署场景
Training:
通常在大型资料中心或超算设施中运行,依赖分布式系统进行大规模运算。
Inference:
部署在多种场景,包括资料中心(如云服务)、边缘设备(如手机、IoT 装置)、自驾车系统等。
总结
Training 晶片 强调高效的并行计算、精度和记忆体带宽,适用於离线的高强度模型训练。
Inference 晶片 更关注延迟和能效,专为实时或低功耗环境设计。
因此,厂商通常针对这两类需求分别开发晶片,以满足不同场景的需求。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.249.89.67 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1734308718.A.184.html
1F:推 beagle2001 : NVDA 不晓得何时要发动 12/16 09:11
2F:推 ohsexygirl : 有没有机会130啊,摩拳擦掌 12/16 09:56
3F:推 xm3u4vmp6 : 感觉NV需要一个假跌破 灌下去 或是下次财报 12/16 10:16
4F:推 sdbb : 99nvdl 12/16 10:37
5F:→ pacino : 目前铁底大概是120,130有点机会。 12/16 11:01
6F:推 ImHoluCan : 巨头都是第一个月跌,第二第三个月涨 12/16 11:36
7F:→ ImHoluCan : 看似Nvidia 不行了,然後做空结果被拉爆,每次破位 12/16 11:37
8F:→ ImHoluCan : 就ㄧ堆人抢 12/16 11:37