返回

文章详情

Sophon PFG-1:一种具有330 GB片上DRAM且无HBM的单片3D AI ASIC

Hacker News2026年6月29日 01:23

修订版 4.1 · 2026年6月 执行摘要 PFG-1 "Sophon" 是一个统一的训练和推理芯片,位于750 mm²,32层2D过渡金属二硫族化合物(TMD)单片3D(M3D)平台上。权重、梯度和优化器状态位于片上2T0C 2D-TMD增益单元DRAM中;由于阵列完全支持读写,相同的硅可以执行BF16前向/反向训练过程并以计算密集的速率提供低批量解码。计算采用纯数字内存计算(CIM):每个256×256 DRAM子阵列平铺一个二进制感应放大器与一个8级加法树,驱动频率为500 MHz的逐位激活广播。在每个芯片上有131,072个晶片,这在7.5 cm²的占地面积中提供4200 TFLOPS FP8和2100 TFLOPS BF16。该芯片基于28纳米Si互补金属氧化物半导体(CMOS)基础层,具有32层的2D-TMD CMOS MAC堆栈和单片层间通孔(MIV)结构,[5][6][7],2T0C DRAM模块嵌入在每个内存层的后端金属3层中。芯片堆的横截面如图1所示。 PFG-1 "Sophon" 内存 2T0C 2D-TMD增益单元DRAM 计算范式 纯数字CIM(感应放大器 + 加法树) 目标工作负载 训练(前向 + 反向 + 优化器)和推理(解码 + 预填充) 容量 330 GB 计算 2100 TFLOPS BF16(4200 TFLOPS FP8推理模式 / 8400 TOPS INT8) 能量 / MAC 0.620 pJ(BF16前向)/ 0.940 pJ(前向 + 反向)/ 0.310 pJ(FP8推理) 峰值效率 3.72 TFLOPS/W(BF16训练平均) 每瓦特的令牌数 每瓦特38.7令牌/s(80B FP8解码,373 W) — ~ 174×一个NVIDIA Rubin(R200)或AMD Instinct MI455X在低批量情况下(~ 0.22令牌/s每瓦,受HBM4限制) 活跃功率 ≈ 379 W前向 / ≈ 749 W反向(~ 564 W训练平均); 373 W FP8解码 80B模型性能 2406令牌/s训练,0.23 J/令牌; 7219令牌/s BF16解码(FP8模式下为14438令牌/s),25.8 mJ/令牌 80B + INT4 + 投机(FP8模式) 72188令牌/s有效 BOM $8358 Sophon完全消除片外高带宽内存(HBM)。对于80B参数的BF16训练,完全把权重 + 一阶优化器状态放在片上,留有约10 GB的激活余量用于梯度检查微批处理;对于推理,在原生BF16中以7219令牌/s提供80B模型,或在FP8模式下提供完整的14438令牌/s — 使其成为一个可以在训练和服务之间灵活重新分区而不改变硬件的单个训练-然后-服务部件。与NVIDIA Rubin(R200)和AMD Instinct MI455X(均为2026年的HBM4部件)相比,Sophon提供了每个芯片约2.7–3.1×更高的80B一批训练吞吐量,并且在单流FP8解码吞吐量上高出约48–53×,这是因为这两款GPU在低批量时受限于其HBM4的带宽(Rubin 22 TB/s,MI455X 19.6 TB/s)。峰值稠密FLOPS更偏向GPU——Sophon的BF16稠密仅为其峰值的约0.21–0.24×——但峰值FLOPS在低批量时无助于性能,权重内存带宽是决定因素。该架构提供了约191–214×的权重带宽,超过HBM4封装的带宽(与Rubin相比191×,与MI455X相比214×)——没有任何HBM路线图能弥补这一差距(第7节)。经济学直接跟随:摩根士丹利估计单个NVIDIA VR200(Rubin)NVL72机架的价格约为780万美元——仅HBM内存约为200万美元(占机架的25.7%,比GB300高出435%)。Sophon消除了这一项目,从而使其硬件BOM比Rubin/MI455X低约9.9× / 11.6×[17]。 目录 引言与动机 架构概述 A. 平台(芯片、层、MIV、TMD MAC) B. PFG-1 "Sophon" — 2T0C DRAM芯片 C. 芯片平面图与片上系统组织 物理计算 A. 单元几何与每层密度 B. 带宽模型 C. 每MAc能量与功率包络 D. 数字CIM单元物理与1/N缩放 SPICE仿真 GPU架构与AI性能 A. 推理 B. 训练 C. 系统视图 热分析 扩展路线图 能源受限的模型大小上限 推理(服务)上限 训练上限 经济分析 太空应用的辐射容限 验证、风险与未来工作 参考文献 方程 附录

赞助内容

NordVPN Next-gen Antivirus

本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。

请我喝杯咖啡