阿里云的内生动力:向上飞天、向下倚天
21世纪经济报道
原标题:阿里云的内生动力:向上飞天、向下倚天
文/白杨
2009年,阿里云的成立,拉开了中国云计算的大幕。如果提炼阿里云第一个十年的核心成就,那非“飞天”莫属。
“飞天”是阿里云自主研发的超大规模通用计算操作系统,在它的连接下,分布在全球的数百万台服务器被整合成为一台超级计算机,由此形成的计算能力构成了阿里云的底座。
过去十余年,飞天操作系统在计算、存储、网络、安全等核心服务方面的能力不断进化,服务的客户也越来越多。从支撑阿里内部的局部试点到全量上云,再到服务外部数十万用户,飞天托起了阿里云的上一个十年。
而现在,伴随着数字经济的发展,整个社会的生产要素都在发生改变,这对于正迈入新十年发展的阿里云来说,是机遇也是挑战。
在2021云栖大会上,阿里云智能总裁张建锋表示,“过去,我们说云是IT的一部分,而现在,IT已经变成云的一部分”。在其看来,一个以云为核心的新型计算体系结构正在形成,随着云网端技术进一步融合,未来无论企业或个人,计算都将进一步向云上迁移。
所以接下来,“上云”不再新鲜,“云原生”才是行业发展的核心方向。据张建锋介绍,目前,阿里巴巴的业务已100%跑在公共云上,并且实现了应用100%云原生化。
而基于自身海量业务带来的实践场景,阿里围绕“云原生”也形成了一条双向生长的发展路径:向上,阿里云在飞天操作系统的基础上,要将核心软件基于云来重构;向下,阿里云则将面向基础设施层,建设以云为核心的硬件体系。
“倚天”、“磐久”横空出世
2021云栖大会上,阿里巴巴旗下的半导体公司平头哥重磅发布了首颗自研云原生处理器芯片——倚天710。
相比于两年前发布的AI推理芯片“含光800”,倚天710作为一颗通用处理器芯片,研发难度要更大。此前,全球范围内具备这一技术能力的企业寥寥可数,而现在,平头哥已经跻身其中。
在整个服务器芯片领域仍停留在7nm工艺时代时,倚天710率先采用了业界最先进的5nm工艺,单芯片容纳高达600亿晶体管。同时,倚天710在芯片架构上是基于最新的ARMv9架构,内含128核CPU,主频最高达到3.2GHz。
云是高性能服务器芯片最大的应用场景,倚天710完全是为云而生,它针对云场景的高并发、高性能和高能效需求而设计,通过将领先的芯片设计技术与云场景的独特需求相结合,最终实现了性能和能效比的突破。
在SPECInt2017基础测试平台上,倚天710的跑分可达440分,这一成绩遥遥领先于已问世的芯片,性能超出业界标杆20%,能效比优于业界标杆50%。
从三年前阿里正式组建平头哥,到现在实现从专用芯片向通用芯片的跨越,倚天710的发布足以证明平头哥已具备复杂大芯片设计的能力,而这,也代表着阿里在芯片这块最难啃的硬骨头上取得了实质性的突破。
芯片之外,阿里云同时还推出了面向云原生时代的“磐久”自研服务器系列,具体包括高性能计算系列、大容量存储系列、高性能存储系列。其中,磐久高性能计算系列将搭载倚天710,并将在今年实现部署,为阿里云自用。
据悉,磐久服务器系列基于灵活模块化设计,实现了计算存储分离,且拥有风冷、液冷不同散热模式和归一化的主板,整机柜的设计让交付效率提升50%。
同时,针对云原生时代容器化、微服务、持续交付等特点,磐久服务器系列还采用软硬件融合的方式,通过结合自研的MOC、FIC、AliFPGA、神盾卡等,满足了云原生的创新开发对性能和稳定性的极致要求。
随着“倚天”和“磐久”的问世,阿里云全栈云基础设施的最后一环也得到了完善,并实现从芯片、部件到整机的技术及架构创新和自研。
软件性能突破上限
阿里云基于飞天向下定义硬件的同时,在基础软件层面也持续升级迭代。2021云栖大会上,阿里云正式推出第四代神龙架构。
作为飞天云操作系统新一代虚拟化技术,神龙4.0首次搭载了大规模弹性RDMA加速网络,使得网络延迟整体降低80%以上。同时,神龙4.0带来的计算架构革新,也将云计算首次带进5微秒时延时代。
阿里云基础产品负责人蒋江伟表示,作为新一代虚拟化技术的代表,神龙在设计之初就是因云而生的,这次升级一口气在IO加速、芯片级安全、云原生弹性和高速网络四大领域做了非常多的优化,为数据库、AI、大数据等通用场景带来性能的飞跃。
据悉,相比传统TCP协议,RDMA能大幅降低网络通信延迟。而阿里云采用软硬一体化的设计思路,将弹性RMDA的加速能力融入公共云,让RDMA从HPC类应用,走向支持通用类计算场景,为Microservice、Serverless、Service Mesh等云原生技术大爆发提供技术支撑。
除此之外,阿里云在大会上还发布了定位于服务器端的全新操作系统——龙蜥。据蒋江伟介绍,龙蜥操作系统已在阿里巴巴内部打磨10年,有效支撑了历年天猫双11,性能和稳定性都经受住了严苛的考验。
这次对外发布,龙蜥也针对云原生应用开发做了多重优化,可为云上典型场景带来40%的综合性能提升,故障率降低50%,同时兼容CentOS生态,并支持一键迁移及提供全栈国密能力。
作为基础软件的另一个核心领域,阿里云自研的云原生关系型数据库PolarDB此次也进行了重磅升级。据阿里云智能数据库事业部总负责人李飞飞介绍,在本次技术升级中,PolarDB实现了三项创新:
第一,是在业内首次实现内存与计算、存储的三层解耦,实现内存池化,使得弹性能力呈数量级提升,同时大幅度降低成本;第二,上线多主架构,进一步提升可用性、并发处理、弹性能力;第三,成为真正的HTAP数据库系统,可同时处理OLTP和OLAP型混合负载。
做深基础,定义未来
在发力自研技术的同时,阿里云也在积极拥抱开源生态。此次云栖大会,阿里云除了将RISC-V架构技术开源外,同时也把刚刚发布的龙蜥操作系统进行了开源,并宣布未来计划为龙蜥投入20亿元专项资金,以及联合100家生态合作伙伴推动生态建设,且提供至少十年技术支持。
此外,阿里云还发布了集成阿里整体大数据+AI能力的一体化平台——阿里灵杰。据悉,阿里灵杰拥有云边端一体的高性能训练和推理引擎,可调动规模高达10万台以上计算集群,真正实现了企业及开发者的“开箱即用”。
两年前,阿里云在成立十周年之际,正式提出了“做深基础”的商业策略,这里的基础,包含着软件和硬件两个层面。
在今年的云栖大会上,无论是自研芯片和服务器的发布,还是各项基础软件的升级,其实都是阿里云基于“做深基础”战略交出的最新答卷。
然而,阿里云布局硬件,外界也开始担心这是否会影响其与原先合作硬件厂商的关系。对此,张建锋表示,阿里云做服务器、交换机,并不是要自己去生产,而只是设计,所以这不仅满足了阿里自身的业务需求,同时也给产业带来了更大的空间。
“比如交换机,阿里云的设计都是开源的,所有厂商只要能满足这个标准,都可以给我们供货”,张建锋说。
对于新发布的处理器芯片倚天710,张建锋也表示,这款芯片将不对外出售,主要是阿里云自用。“阿里云做芯片,是聚焦在云计算,而不是半导体。阿里云目前仍然是一家云计算厂商,如果市场上有更好的选择,我们当然也会采用市场上的解决方案”。
对于任何行业来说,能否准确判断未来的方向都至关重要。哪怕只准确判断出未来三到五年的趋势,那便足够使一家企业处于领先地位。
阿里云目前做的事情,实际上也是基于对未来新型计算体系结构的判断。作为行业领导者,阿里云仅满足当下的市场需求还不够,它还肩负着引领行业去探索和定义未来趋势的重任。
“如果不能为行业未来的趋势做出一些产品,那肯定不具备领导者的资格”,张建锋说,而阿里云从飞天到倚天,打造以云为基础的软硬件技术体系,也是为了让中国云计算在数字时代具备全球竞争力。