新浪新闻

Groq LPU的片上SRAM设计如何突破传统GPU在AI推理中的能耗瓶颈?

BigNews

关注

Groq LPU通过片上大容量SRAM替代传统GPU的片外HBM显存,结合确定性流式处理架构,从根本上解决了AI推理中的“内存墙”问题,将单位token的能耗降低至GPU的1/5–1/10,同时实现数十倍的推理速度提升。

一、突破能耗瓶颈的核心设计

SRAM替代HBM,消除“内存墙”瓶颈

存储位置与带宽革新:

Groq LPU将230MB SRAM直接集成在芯片上,而非像GPU那样依赖外部高带宽内存(HBM)。SRAM提供高达80TB/s的片上带宽,是HBM(通常4-6TB/s)的15–20倍,数据访问延迟降至接近零。

能耗对比:HBM需通过封装基板和长距离电路传输数据,功耗占GPU总能耗的30%–50%;而SRAM与计算单元直接交互,功耗仅为GPU的1/5–1/10。

成本与供应链优化:

无需CoWoS先进封装技术(HBM的产能瓶颈),降低了制造复杂性和成本。尽管SRAM单价更高,但系统级需求容量更低(仅为HBM的1/10–1/5),整体成本反具优势。

确定性流式处理架构

静态时序调度:

LPU在编译阶段预编排所有指令和数据流,运行时按固定时钟周期执行,消除GPU动态调度的乱序执行和缓存竞争,延迟稳定在微秒级(GPU为毫秒级波动)。

能效提升机制:

计算单元全时段满载运行,无空转等待。对比GPU因内存延迟导致的算力闲置(利用率常低于60%),LPU利用率超95%,单位算力功耗降至100–300W(GPU为700W+)。

专用推理架构分工

Prefill/Decode阶段解耦:

Prefill阶段(计算密集型)仍由GPU/TPU处理,而Decode阶段(延迟敏感型)由LPU专注执行。LPU通过SRAM快速加载权重,实现每秒500 tokens的极速生成。

二、技术挑战与创新应对

SRAM容量限制的破解

分布式集群方案:

单颗LPU的SRAM容量有限(230MB),需通过多芯片互联运行大模型。例如Llama 2-70B需576颗LPU协作,通过“蜻蜓架构”光互联(带宽80TB/s)实现低延迟协同,避免传统交换机的性能损耗。

3D堆叠技术:

下一代方案将采用类似AMD 3D V-Cache的堆叠SRAM,通过混合键合垂直扩容,提升单芯片模型承载能力。

软件定义硬件的协同优化

编译器核心技术:

GroqFlow编译器将模型拆解为微操作,精确调度至SRAM、矩阵单元(MXM)等专用硬件模块,实现“零冗余数据搬运”。软件预编排替代硬件动态调度,减少30%的指令开销。

三、产业影响与未来趋势

推理市场重塑:

LPU推动AI推理从通用计算转向专用化分层架构,单位Token成本降至GPU的20%以下,加速实时交互应用(如自动驾驶、语音助手)落地。

技术路线分化:

英伟达在Rubin/Feynman架构中集成LPU模块,形成“GPU+LPU”异构方案;谷歌则推进TPU+LPU外挂组合,争夺推理市场定价权。

国产替代机遇:

寒武纪、华为昇腾等正研发类似SRAM架构,北京君正等企业加速车规级SRAM量产,推动国产算力链突破。

⚠️ 需注意的局限:LPU目前更适合≤700亿参数的中小模型,超大规模模型仍需GPU+HBM支撑;多芯片互联也增加了系统复杂性和散热挑战。 (以上内容均由AI生成)

加载中...