新浪新闻

HBM4E带宽突破4.0TB/s真能彻底破解AI算力的存储器高墙瓶颈吗?

BigNews

关注

三星和SK海力士近期相继推出或展出带宽高达4.0TB/s的HBM4E样品,但这一跃升并未“彻底破解”AI算力的存储墙瓶颈,只是阶段性缓解,存储墙问题的根源在于多重物理与架构限制,业界正从HBM堆叠极限、分离封装光互连、HBF新型存储等多个方向寻求根本性突破。

HBM4E 的突破:一场有针对性的战术胜利

1. 性能跃升的量化指标

三星在2026年5月底率先向客户出货12层HBM4E样品,单堆栈带宽达3.6TB/s,相较于HBM4的14Gbps引脚速率提升至16Gbps,能效提升16%,热阻改善超14%。

SK海力士紧随其后,在2026年6月初的COMPUTEX上展出同规格产品,单堆栈带宽正式标定至4.0TB/s,带宽较前代提升38%,单Die容量提升33%。

单个HBM4E堆栈已可提供48GB容量,三星还规划了32GB 8层与64GB 16层版本。一颗HBM4E在带宽和容量上已碾压顶级的消费级GDDR7组合。

2. 直接缓解的痛点

数据吞吐能力提升:4.0TB/s的带宽可有效支撑大型语言模型训练与推理时,对万亿级参数模型的实时数据喂送,避免GPU因等待数据而空转。

容量瓶颈局部放松:单栈48GB的容量,结合多堆栈部署,能够容纳更大的KV Cache和模型权重,减少跨卡、跨服务器的数据搬运。

为何 HBM4E 无法“彻底”破解存储墙瓶颈

1. 物理极限与“岸线”困局

堆叠高度天花板:DRAM Die垂直堆叠超过12层、16层后,工艺难度指数级上升,已逼近JEDEC放宽后的高度规格上限。单纯靠“叠高”这条路越走越窄。

岸线(Shoreline)限制:在传统的2.5D封装中,HBM必须紧贴GPU芯片周围放置。能被放置的HBM数量受限于GPU芯片的边缘周长。即便单个HBM带宽再高,若物理上无法安装更多颗,总系统带宽和容量就会封顶。这是“结构性僵局”。

2. 成本与晶圆消耗的制约

生产同等容量的HBM,所消耗的晶圆面积是标准DRAM的2至3倍,导致HBM产能扩张慢、成本极高。

2026年科技巨头约30%的资本开支被存储吞噬,HBM的“性价比”问题使得它无法在AI推理这类对成本敏感的大规模场景中成为唯一选择。

3. “木桶效应”下的其他短板

CPU侧内存瓶颈:GPU的HBM问题受关注,但AI服务器中CPU核心数激增,传统DDR5内存带宽捉襟见肘,形成了另一个独立的“内存墙”。MRDIMM等新技术正被三大存储巨头押注来解决此问题。

互联带宽瓶颈:当模型数据无法塞入单一节点,芯片间、机柜间、数据中心间的互连带宽(如NVLink、光模块)就成了新瓶颈。业界认为长期瓶颈正从算力、存储转向芯片互联。

EUV光刻机产能:长期来看,ASML的EUV光刻机年产量不足百台,这最终将限制整个半导体制造的产能天花板,包括HBM所需的逻辑芯片。

业界正在探索的“破墙”方向

1. 分离封装 + 光互连

颠覆性思路:放弃HBM紧贴GPU的传统设计,将两者分离独立封装,通过光互连连接。这彻底摆脱了岸线限制,可在板卡上横向安装数倍于现在的HBM,大幅提升系统存力与带宽。

技术挑战:需将数据中心级光互连技术微型化、高集成,适配板卡内芯片级场景,技术壁垒极高,尚未有确定路线图。

行业共识:光互连是明确方向,将先从机架间、服务器间落地(采用LPO或DSP),再逐步推进至板卡内芯片互联。

2. HBF:面向推理场景的存储层级革命

核心定位:高带宽闪存,用NAND闪存复刻HBM的3D堆叠形态,旨在填补HBM(极快但贵)与传统SSD(慢但容量大)之间的巨大鸿沟。

性能与成本:第一代HBF读取带宽预计可达1.6TB/s,单栈容量可达512GB(约为HBM的8-16倍),每GB成本仅为HBM的十分之一。

产业进度:闪迪联合SK海力士正推动HBF标准制定,计划2026年底出样片,2027年落地商用。HBM将与HBF在AI存储层级中形成互补:HBM作为“超大最后一级缓存”,HBF作为推理主力。

3. CXL互连技术

通过CXL 3.1等高速互连标准,实现CPU、GPU与内存池的高效共享与扩展。三星计划2026年Q4量产CXL 3.1内存模块,其控制器由澜起科技等厂商提供,旨在从系统架构层面缓解内存墙与容量墙。 (以上内容均由AI生成)

加载中...