新浪新闻

万卡集群开源化,国产AI算力如何打破封闭化困境?

BigNews 01.25 19:47

国产AI算力通过开放架构设计、开源软件协作和政企协同共建,正在突破封闭化困境,其核心路径是构建软硬件解耦的“类安卓”生态模式,并依托万卡级集群规模化落地加速技术迭代。

一、封闭化困境的核心矛盾

当前国产算力生态存在两大矛盾: 1. 技术割裂:国内超30家AI芯片企业各自搭建封闭技术栈,导致软硬件适配成本高企。如不同厂商的加速卡需定制化开发通信协议,造成资源重复投入。 2. 生态孤岛:部分厂商模仿“苹果模式”打造全栈封闭系统,用户绑定性强。某国产芯片仅支持自研框架,迁移成本高达原有业务投入的40%。

二、破局路径:从硬件开源到生态开放

1. 硬件层开放互联

超节点架构突破:华为CloudMatrix 384集群、中科曙光ScaleX万卡集群采用高速无损网络协议,实现多品牌芯片(昇腾/寒武纪/沐曦)跨厂商互联,片间带宽达4.5PB/s。

液冷标准化:中科曙光将液冷机柜接口开源,支持第三方散热设备即插即用,使单机柜功耗从50kW提升至100kW。

2. 软件层开源协同

基础软件开源:华为开源Flex:AI容器技术,实现算力细粒度切分(精度达10%),支持跨厂商芯片组建共享算力池;摩尔线程Musa架构兼容CUDA生态,降低开发者迁移门槛。

模型适配优化:中科曙光完成400+主流大模型适配工具包开源,使LLaMA、Qwen等模型在国产集群训练效率提升30%。

3. 生态共建机制

实验室联合攻坚:光合组织设立芯片互联工作组,20余家企业共同制定《超集群通信协议标准》,将万卡集群故障恢复时间从小时级压缩至分钟级。

算力普惠平台:中国联通“星罗”平台聚合沐曦/海光等国产芯片,提供动态算力切片服务,中小企业调用成本降低60%。

三、规模化落地的关键突破

训练效率优化

蚂蚁集团通过动态参数分配技术,在国产低性能GPU上完成3000亿参数MoE模型训练,较传统方案节省40%算力消耗。百度昆仑万卡集群采用通信优化算法,使千亿模型训练周期缩短50%。

商业闭环验证

美团大模型完全基于国产万卡集群训练,推理性能比肩国际水平;科大讯飞星火X1.5实现93%技术替代率,覆盖拉美等60国市场。

四、未来挑战与演进方向

单卡性能代差:国产旗舰芯片(如昇腾910C)算力仅为英伟达H200的61.5%,需通过Chiplet异构集成技术突破制程限制。

工具链成熟度:国产计算框架算子覆盖率不足60%,需建立开源激励基金吸引开发者共建。

绿色算力融合:宁夏枢纽节点通过“东数西算”工程整合风电资源,将算力成本压降至0.36元/度,为美国的53%,该模式正向全国8大节点推广。

当前国产AI算力正经历从“被迫替代”到“主动创新”的转型。随着2026年寒武纪690、昇腾950pro等新一代芯片量产,配合开源协议与区域算力网建设,中国或率先实现超大规模集群的“发电厂式”运营——集中建设基础设施,开放输出算力服务,最终打破封闭化枷锁。 (以上内容均由AI生成)

加载中...