HBM4E带宽突破4.0TB/s真能彻底破解AI算力的存储器高墙瓶颈吗？

BigNews 06.04 19:15

三星和SK海力士近期相继推出或展出带宽高达4.0TB/s的HBM4E样品，但这一跃升并未“彻底破解”AI算力的存储墙瓶颈，只是阶段性缓解，存储墙问题的根源在于多重物理与架构限制，业界正从HBM堆叠极限、分离封装光互连、HBF新型存储等多个方向寻求根本性突破。

HBM4E 的突破：一场有针对性的战术胜利

1. 性能跃升的量化指标

三星在2026年5月底率先向客户出货12层HBM4E样品，单堆栈带宽达3.6TB/s，相较于HBM4的14Gbps引脚速率提升至16Gbps，能效提升16%，热阻改善超14%。

SK海力士紧随其后，在2026年6月初的COMPUTEX上展出同规格产品，单堆栈带宽正式标定至4.0TB/s，带宽较前代提升38%，单Die容量提升33%。

单个HBM4E堆栈已可提供48GB容量，三星还规划了32GB 8层与64GB 16层版本。一颗HBM4E在带宽和容量上已碾压顶级的消费级GDDR7组合。

2. 直接缓解的痛点

数据吞吐能力提升：4.0TB/s的带宽可有效支撑大型语言模型训练与推理时，对万亿级参数模型的实时数据喂送，避免GPU因等待数据而空转。

容量瓶颈局部放松：单栈48GB的容量，结合多堆栈部署，能够容纳更大的KV Cache和模型权重，减少跨卡、跨服务器的数据搬运。

为何 HBM4E 无法“彻底”破解存储墙瓶颈

1. 物理极限与“岸线”困局

堆叠高度天花板：DRAM Die垂直堆叠超过12层、16层后，工艺难度指数级上升，已逼近JEDEC放宽后的高度规格上限。单纯靠“叠高”这条路越走越窄。

岸线（Shoreline）限制：在传统的2.5D封装中，HBM必须紧贴GPU芯片周围放置。能被放置的HBM数量受限于GPU芯片的边缘周长。即便单个HBM带宽再高，若物理上无法安装更多颗，总系统带宽和容量就会封顶。这是“结构性僵局”。

2. 成本与晶圆消耗的制约

生产同等容量的HBM，所消耗的晶圆面积是标准DRAM的2至3倍，导致HBM产能扩张慢、成本极高。

2026年科技巨头约30%的资本开支被存储吞噬，HBM的“性价比”问题使得它无法在AI推理这类对成本敏感的大规模场景中成为唯一选择。

3. “木桶效应”下的其他短板

CPU侧内存瓶颈：GPU的HBM问题受关注，但AI服务器中CPU核心数激增，传统DDR5内存带宽捉襟见肘，形成了另一个独立的“内存墙”。MRDIMM等新技术正被三大存储巨头押注来解决此问题。

互联带宽瓶颈：当模型数据无法塞入单一节点，芯片间、机柜间、数据中心间的互连带宽（如NVLink、光模块）就成了新瓶颈。业界认为长期瓶颈正从算力、存储转向芯片互联。

EUV光刻机产能：长期来看，ASML的EUV光刻机年产量不足百台，这最终将限制整个半导体制造的产能天花板，包括HBM所需的逻辑芯片。

业界正在探索的“破墙”方向

1. 分离封装 + 光互连

颠覆性思路：放弃HBM紧贴GPU的传统设计，将两者分离独立封装，通过光互连连接。这彻底摆脱了岸线限制，可在板卡上横向安装数倍于现在的HBM，大幅提升系统存力与带宽。

技术挑战：需将数据中心级光互连技术微型化、高集成，适配板卡内芯片级场景，技术壁垒极高，尚未有确定路线图。

行业共识：光互连是明确方向，将先从机架间、服务器间落地（采用LPO或DSP），再逐步推进至板卡内芯片互联。

2. HBF：面向推理场景的存储层级革命

核心定位：高带宽闪存，用NAND闪存复刻HBM的3D堆叠形态，旨在填补HBM（极快但贵）与传统SSD（慢但容量大）之间的巨大鸿沟。

性能与成本：第一代HBF读取带宽预计可达1.6TB/s，单栈容量可达512GB（约为HBM的8-16倍），每GB成本仅为HBM的十分之一。

产业进度：闪迪联合SK海力士正推动HBF标准制定，计划2026年底出样片，2027年落地商用。HBM将与HBF在AI存储层级中形成互补：HBM作为“超大最后一级缓存”，HBF作为推理主力。

3. CXL互连技术

通过CXL 3.1等高速互连标准，实现CPU、GPU与内存池的高效共享与扩展。三星计划2026年Q4量产CXL 3.1内存模块，其控制器由澜起科技等厂商提供，旨在从系统架构层面缓解内存墙与容量墙。 (以上内容均由AI生成)