打破HPC领域的存储墙,助力转化医学“与时间赛跑”
2011年,我国血液学名家、中国科学院院士、瑞金医院终身教授、国家最高科学技术奖获得者王振义建议,需要在我国大力开展转化医学研究,提高我国的医疗服务水平,更好地服务于国民健康。这一建议得到了国家重视并由此拉开了我国转化医学建设的帷幕:即开始在上海、成都、北京协和、解放军总医院、陕西西安布局建设转化医学研究设施,以求形成覆盖全国主要区域的转化医学研究支撑网络。其中,上海这个“支撑网络节点”——转化医学国家重大科技基础设施(上海)就设在了上海交通大学闵行校区和上海交通大学医学院附属瑞金医院,它2013年7月立项,2016年3月开工,2019年初闵行基地试运行,2020年12月瑞金基地转化医学大楼启用,标志着中国首个国家级综合性转化医学大设施正式落成并投入运营。这是继上海光源大设施、上海蛋白质中心后,第三家落户上海的国家级大设施。
一、20年前的一个概念,为何如此重要?
转化医学的概念,源于20多年前。
那是在上世纪末,NIH(美国国立卫生研究院)每年的研究经费高达200多亿美元。这引发了一个问题:发明了那么多新技术,积累了那么多新知识,发表了那么多高水平论文,为什么人们的健康状况并没有得到显著改善?
这也是转化医学要解决的灵魂之问——即,如何将基础医学研究与临床实践更为紧密地结合起来。转化医学的初衷,就是要把临床提出的问题快速转化为基础研究项目,而后再将研究项目的成果同样高效地转化为针对临床患者疾病的精准预防、诊断、治疗及预后评估等一系列方案,从而让新技术和研究成果更快、也更有的放矢地用于改善人类健康的大业中。
谈到这种双向高效转化的重要性,瑞金医院国家转化医学中心生信大数据平台共同负责人吕纲曾做过一个贴切的比喻:“就像小说里的武功高手要练成绝世武功,都要打通任督二脉;而在当今的发达医学领域也是如此,临床医学与基础研究这二脉也亟需打通。”
上海瑞金医院国家转化医学中心的成立,是我国推进转化医学实践的重要一步,它将攻关方向锁定在针对我国重大疾病诊疗的重大关键技术的探索上,其重点在肿瘤、代谢性疾病和心脑血管疾病等领域,旨在研究相关发病机理和规律,解决疾病的发生、发展与转归中的重大科学问题。该中心拥有层流研究病房和数字化能量代谢仓,对临床研究数据可以进行智能感知和自主集采;另外,国家转化医学中心拥有百万级别样本数据库,具备高通量测序、质谱和药筛等组学研究平台。
吕纲
二、高性能计算:转化医学实践的技术保障
那么,转化医学中心具体在做什么?举一个简单的例子,与完成病理分析及少量分子检测后即可实施手术或化疗的传统癌症治疗方案不同,转化医学需要对患者的整个基因组进行分析,以指导药企及临床医生进行更有针对性的药物及治疗方案研究,从而为患者提供更为精准、更加有效的诊疗。
据吕纲介绍:“转化医学中心工作涉及面广,包含组学技术、生信分析、基础医学研究和药物开发等各个方面。生物信息学研究是转化医学研究的基石,它会涉及对蛋白质、DNA和RNA等生物分子的研究。”
可见,转化医学与数据处理和分析息息相关,包含了生物信息的获取、加工、储存、分配、分析、解释等方方面面。而涉及的数据量庞大:每个文件大小可能达上百GB,例如,仅单个人类全基因组测序分析涉及的数据就可能高达870GB。
如此体量的数据,就让数据处理速度变得更为关键,而且中心招募的患者通常病情都比较危急,需要以尽可能快的速度基于患者生信数据分析结果给出针对性的创新疗法。
举个例子,在2020年新冠疫情爆发之初,瑞金医院国家转化医学中心就与上海公卫中心进行合作,成立了新冠研究课题联合攻关组,对疫情初期的326例患者,进行了病毒基因组、临床表现、免疫反应等数据的深度分析和全球数据分享。从项目开始到最终相关研究成果在《Nature》主刊上发表,总共用了短短的45天时间。再比如,做面对超高深度肿瘤全基因组测序这种超大数据的处理,原本需要近7天时间,而现在只需要7-8个小时就可以完成。计算时间大幅缩短,意味着病人可以更早得到检测信息和分析结果,更早接受对应的治疗方案。
从上述的两个实例来看,瑞金医院国家转化医学中心的很多工作,都是“与死神赛跑”的过程,而且其加速的过程,或者说效率的提升,都与承载生物信息学研究的IT平台,尤其是强大的高性能计算(HPC)平台密不可分。这就是瑞金医院国家转化医学中心构建和优化其专用生物信息大数据平台ASTRA的初衷,这是一个集存、传、算、用为一体的的定制化平台,为转化医学实践提供了坚实可靠的技术基础。
三、超算不仅需要更高算力,也要搭配更强存储
HPC又称超算,顾名思义,主要是凭借超强算力来解决这个世界上最复杂的各类科学问题。早期的HPC主要应用于政府或国家级科研机构主导的大型基础科研项目,如美国在1960年代曾使用CDC超级计算机进行火箭设计等工作。再后来,金融、天气预测领域也越来越常见到高性能计算的身影。
而随着基于x86架构处理器的工业标准化集群的采用,HPC更是走出了象牙塔,开始走入工业界中的多个行业,成为他们开展产品、技术和服务创新的重要驱动力。基于此,人们也继理论科学和实验科学之后,将高性能计算称为科学的第三支柱。而瑞金国家转化医学中心对于HPC的应用属于医疗和生命科学领域的实践,也是当今HPC诸多行业应用场景中的重中之重。
那么,在构建这样的HPC系统的过程中,有什么问题是需要格外关注的呢?
毋庸质疑,算力当属其第一关心的要素。事实上,这种关注和投入,所换得的成果也异常丰硕,我们只举一个例子就足以说明算力增长之猛:1996年在全球高性能计算机500强排行榜上首个打破每秒万亿次浮点计算纪录的ASCI Red系统足足使用了6000颗英特尔奔腾Pro处理器,而现在很多主流芯片产品只需单颗就可以打平和超越这一算力,同时今天HPC的顶流算力也更是以每秒百亿亿次浮点计算为衡量标准,如美国阿贡实验室即将采用代号为Sapphire Rapids的第四代英特尔至强可扩展处理器,以及代号为Ponte Vecchio的英特尔数据中心GPU建设的Aurora(极光)超算系统,性能输出水平就能达到每秒两百亿亿次,足足是ASCI Red的约200万倍。
或许正是因为算力提升的速度快到令人难以置信,反而让如今的HPC系统开始普遍面临“失衡”的问题,即其计算,与其存储和网络的性能拉开了非常大的差距。
要知道,任何一个HPC平台的规划都是一个系统性工程,它在体系结构设计、高速互联网络、并行文件系统、存储阵列等任何方面的欠缺或不足,都可能拖累平台的整体性能。换言之,算力爆棚但其他方面拉胯,就很可能让高算力空转,无法充分释放其价值。
这种“失衡”,如今在计算和存储间的表现尤为明显——在算法和算力已取得显著提升的今天,不论是机械硬盘,还是固态盘在读写速度和带宽上都已远远跟不上算力的需求,而距离算力单元更近、性能较强且担负热数据承载重任的内存子系统,又很难扩展其容量。
这可能就是HPC平台算力与存储性能失衡的根因,它会引发“存储墙”或“数据墙”问题,使得算力单元与内存及存储之间就像隔着一堵墙,使其无法得到数据的高效供应,或影响数据高并发访问时的效率。这种传统内存-存储在架构和性能上的瓶颈,会在业务和应用层面造成算力投资的浪费,影响相关应用负载或项目的效率。
四、破“墙”而出,看ASTRA如何应用创新存储技术
主修生物信息分析且曾在上海张江的国家人类基因组南方研究中心工作的吕纲,在基因组学数据分析方面有着丰富经验,因而也很清楚HPC平台“存储墙”的存在与影响。他坦言:“通量测序仪的通量飞跃式发展,在数据存储上的需求一直都是水涨船高。最关键的是要进行数据分析,CPU的计算速度很快,但大量时间用在了数据加载上。因此,中间层的存储系统就显得非常重要。”
因此,早在一期建设时,吕纲就已经预料到自家HPC平台对“大内存”的需求。
“当时我们买的是2TB的DRAM内存,要用8路的服务器来实现,成本非常高。而使用傲腾持久内存,只需要2路服务器就能让我们实现3TB内存容量,同时还显著降低了成本。”
吕纲提到的傲腾持久内存,全称是英特尔傲腾持久内存(Intel Optane Persistent Memory),它是英特尔专为突破传统内存-存储架构性能瓶颈设计开发的产品,凭借创新的傲腾存储介质,能够兼备接近DRAM内存的高性能,以及存储设备的大容量和数据持久化存储。
目前,国内外很多行业的用户在遇到内存容量不足,使用DRAM内存进行容量扩展既难满足需求(主流DRAM内存单条多为32GB和64GB,128GB已经是高端产品),又难承担其高昂的成本时,都开始选择容量数倍于DRAM、且成本更优的傲腾持久内存(单条容量可达128GB、256GB和512GB)来达成目的。
然而,仅仅扩展内存的容量,对于瑞金医院国家转化医学中心的ASTRA平台还是不够的,它需要的是对整个HPC平台存储系统进行更为全面的升级,来更为从容地应对其面临的“存储墙”问题,这就包括要让存储跟上海量数据高速处理的要求、要满足不同科研和临床团队高效并行访问海量生信数据的要求,以及要持续容纳庞大、复杂、多维且不断增长的数据等等。
因此,ASTRA平台采用了三级存储模式——传统NAS、传统并行文件Lustre、基于傲腾持久内存的高速存储DAOS。其中,前两者用于原始数据的存储及备份,而DAOS针对的则是性能要求更为严苛的生信计算。
DAOS(Distributed Asynchronous Object Storage),中文全称是分布式异步对象存储。其优势要用几句话来概括,那就是:它是一种开源软件定义横向扩展对象存储,没有延续针对高时延、块存储的I/O模型,而是选择了为访问高细粒度数据提供原生支持的I/O模型;没有使用高时延的点到点通信,而是使用了能绕过操作系统的低时延、高消息速度用户空间通信;没有只依赖传统的存储设备,而是充分利用了创新非易失性存储技术(包括英特尔傲腾持久内存和傲腾固态盘),并将更大体量的元数据保存在持久内存中,将批量数据保存在固态盘中,以此来实现对更多热数据的更高效的访问和处理。
基于这些优势,DAOS堪称是对存储介质和介质使用方式的双重革命,而英特尔也把其视作百亿亿级HPC存储堆栈的基础。
“DAOS基于高性能存储硬件傲腾持久内存和傲腾固态盘而设计,对生物信息数据分析工作支持比Lustre更好。我们和英特尔的技术专家一起,进行了细致的性能调优和测试,而结果非常理想。”在吕纲看来,DAOS的价值在于,能够充分利用傲腾持久内存的独特性能,从而提供高带宽、低时延、高IPOS和非常优秀的小文件处理能力。
“基于持久内存的DAOS,是一个非常具有性价比的方案,”吕纲评价道,“就性能而言,它拥有其他方案很难实现的优势。例如,持久内存拥有内存模式和App Direct模式,因此我们可以按需在两种模式中进行切换,从而满足我们对大内存和大存储容量的不同需求。其他一些硬件,虽然带宽性能提升了,但是毕竟没办法做内存使用,只能当成存储用,不具备灵活性。而从价格上来说,持久内存的每GB成本也比DRAM要低;另外,DAOS是一个开源软件,对于瑞金医院的上手成本相对较低,只需要支付硬件的钱,免去了一笔很大的软件授权费用。”
五、破墙后再破局,造就IO-500上的生信“顶流”
有了傲腾持久内存+DAOS的加持,ASTRA平台的存储性能就开始了 “火箭式”的蹿升。
2021年11月,在美国举办的全球超级计算大会(SC21)正式公布了全球最新IO-500榜单。ASTRA第一次打入该榜单,就在10节点性能排行中位列第八,在总榜单上的排名也位居第十四,而更重要的是,它也是全球生信领域惟一一个打进10节点榜单前十的系统。
对于这一成绩,吕纲表示,“以往排名靠前的都是全球知名科研机构,顶级互联网厂商或者国家级的超算中心。生信或者医院机构可以说是难得一见。在英特尔的这套DAOS方案下,我们成为了第一批吃螃蟹的人。”
对此,英特尔市场营销集团副总裁、中国区行业解决方案部总经理梁雅莉也曾公开表示:“我非常高兴看到英特尔和转化医学中心之间的深度合作带来的创新成果,我更欣喜地看到,在全球IO500的排名内第一次出现生信行业的客户代表,而且是我们中国区的合作伙伴来突破这个行业天花板。”
有趣的是,今年5月底在德国举办的国际超算大会(ISC22)在刷新了IO-500榜单后,ASTRA的总排名和10节点性能排名虽然变成了第19名和第12名,但它依然是全球生信领域HPC中存储性能的佼佼者。而且特别值得一提的是,新的总榜单上前十名中已经有5个系统,即半数是采用了DAOS的系统。
由此可见,英特尔傲腾持久内存以及基于它的DAOS方案,不仅吸引了瑞金医院国家转化医学中心,也是其他亟需破解存储墙的用户们期待已久的良方,它能帮助这些用户以更优的性价比,或者说更高的投资回报率来升级其HPC平台的存储系统,形成更为高效和灵活的分层存储和数据读写访问机制,尤其是能让更多热数据能够存在更靠近算力的内存子系统中,从而实现整体效率的显著提升。
事实上,即便把傲腾持久内存从DAOS中“拆”出来单独使用,它也是突破HPC,以及AI、大数据分析和云环境中存储墙的必备利器。以去年发布的第三代英特尔至强可扩展平台为例,理论上它已能在一个双路服务器平台上最高配备近8TB的傲腾持久内存(选择单条512GB的版本),如此惊人的容量扩展能力,足以应对几乎所有内存容量敏感型的应用的需求。因此,在基于傲腾持久内存的DAOS成为越来越多HPC用户冲击百亿亿级系统的存储基座时,傲腾持久内存也会成为更多HPC和非HPC客户突破存储墙的优选方案。
(来源:新视线)