新浪新闻 国内

中科曙光李斌:scaleFabric已落地万卡集群,国产IB生态正在形成

观察者网

关注

随着大模型训练规模不断扩大,万卡级智算集群加速落地,高性能互联网络正成为决定算力效率的关键一环。3月12日,中科曙光发布首款国产原生无损RDMA高速网络 scaleFabric,该产品兼具全自主、高性能、高可靠特性,目前已成功支撑三套scaleX万卡超集群上线。

“大模型训练中,网络通信占据了大量时间成本,高速互联能力可以直接影响到集群效率与算力释放。”中科曙光高级副总裁李斌表示,“曙光采用为超大规模集群原生设计的全新架构,实现高端网络全链条自主突破,在性能对标国际顶尖水平的同时,为智能算力发展和高水平超大规模集群建设铺就了一条自主可控的‘高速路’。”

据悉,包含核心关键IP、交换芯片、网卡、交换机、驱动与管理软件等,曙光已实现scaleFabric从底层芯片到上层软件的100%全栈自研,构建了从硬件到软件的完整自主技术体系,为产品性能与可靠性奠定了核心基础。

实测数据显示,scaleFabric400系列网络产品技术规格全面对标英伟达NDR,部分指标实现赶超。性能方面,scaleFabric400网卡基于PCIe5.0接口,端口带宽达400Gbps,端到端通信时延低至0.9微秒;scaleFabric400交换机单端口带宽达800Gbps,整机交换容量可达双向64Tbps,交换时延约260纳秒,支持800G×40或400G×80端口扩展。

“scaleFabric不是概念,它已经在万卡集群里跑起来了。”据李斌介绍,scaleFabric已支撑近万卡集群持续稳定运行验证超10个月。并且,曙光正联合产业链伙伴推进国产高性能网络生态建设,进一步带动数据中心网络技术协同创新,在现实场景实践中积极填补我国超大规模智能计算高速互联领域的空白。

加载中...