传英伟达Blackwell旗舰芯片存在过热因而更改机架设计 可能会导致推迟发货
#行业资讯 传英伟达下一代 Blackwell 芯片存在过热问题,这让谷歌和微软等公司担忧部署时间可能会被推迟。当在安装 72 个芯片的机架上运行时,总功率会达到 120kW,其发热量也极其惊人,英伟达也注意到这些问题并指示机架供应商更改设计改善散热问题。查看全文:https://ourl.co/106675
英伟达最新的旗舰加速卡基于 Blackwell 架构构建,目前还未正式推出,不过有传言称该芯片可能存在过热问题因此导致设计变更。
值得注意的是要进行重新设计的并非这款芯片而是相应的服务器机架,The Information 发布的报道称在安装 72 个芯片的服务器中使用存在过热问题。
这些机架服务器的总功率达到非常惊人的 120kW,这不得不让英伟达多次重新评估服务器机架的设计,因为温度过高的情况下不仅会限制 GPU 性能,还可能导致硬件出现物理损坏。
为英伟达供应服务器机架的供应商包括早前被传出有财务造假的 SMCI,据悉英伟达已经指示其供应商对机架进行设计更改以解决过热问题。
而这些调整则可能会导致基于 Blackwell 芯片的人工智能加速卡发货延迟,目前包括谷歌、微软和 Meta 都已经订购这些加速卡等待发货后部署。
对于这个问题英伟达也进行了官方回应,英伟达表示设计变更属于正常开发过程的一部分,与云提供商和机架供应商的合作旨在确保最终产品满足性能和可靠性预期,英伟达也将继续致力于解决这些技术挑战。
Blackwell 芯片在这个开发过程中也不算顺利,此前就有消息称由于芯片设计缺陷英伟达不得不推迟芯片生产,GPU 芯片、LSI 桥接器、RDL 中阶层和主板基板的热膨胀特性不匹配会导致翘曲和故障。
最终 Blackwebll 芯片在 10 月下旬开始量产,但要到 2025 年 1 月才能出货,这比预期时间要晚了几个月。
不过芯片开发过程中难免会遇到各种问题,可能现在在 AI 热潮下各大科技公司对芯片的关注度极高,这才会将这些原本设计过程中的常规问题放大关注吧。