英特尔至强6性能核或成为AI服务器的理想之选
自两年前OpenAI向世界推出ChatGPT以来,生成式人工智能在很大程度上一直是GPU的舞台,而且主要是英伟达的GPU,尽管其他厂商的图形芯片以及专注于人工智能的芯片也试图打入这个领域。不过,至少就目前而言,GPU及其高度并行的处理能力仍将继续是训练大型语言模型(LLM)以及运行部分人工智能推理任务的首选芯片。
然而,在快速发展且日益复杂的人工智能工作负载领域,GPU在成本和能效方面都面临着自身的挑战。英伟达的GPU可不便宜 —— 一块H100 GPU的售价可达2.5万美元甚至更高,而新的Blackwell GPU价格甚至更高。此外,它们耗电量巨大,这会限制人工智能应用的扩展规模,并加剧人们对人工智能在近期内巨大的能源需求所产生影响的担忧。
据高盛研究报告称,处理一次OpenAI的ChatGPT查询所需的电量几乎是处理一次谷歌搜索的10倍,而且人工智能任务所产生的能源需求有望继续增长。高盛预测,到2030年,数据中心的电力需求将跃升160%,而目前全球数据中心的耗电量约占总耗电量的1%至2%,到本十年末这一比例将达到3%至4%。
在人工智能时代,CPU并没有被边缘化,它们一直在人工智能推理中发挥着作用,而且相较于更为专业的GPU同类产品,它们具有更大的灵活性。此外,对于那些参数规模在数亿到不足100亿之间的小型语言模型(SML)而言,CPU的成本和能效优势明显,不像那些耗电量大的大型语言模型(LLM)有着数十亿到数万亿的参数规模。
前不久,传统数据中心处理器又有了一个新角色 —— 在GPU加速的人工智能系统中充当其 CPU。如前所述,日益复杂的人工智能工作负载对电力的需求越来越高,这可能会限制人工智能应用在性能不受损且成本不过高的情况下能够扩展的规模。
服务器CPU负责执行一系列任务以确保系统的高利用率,从而最大限度地提高性能和效率。这些任务包括为训练模型准备数据、将数据传输到GPU以进行并行处理任务、管理对系统内存的检查点操作,以及为处理在同一加速基础设施上运行的混合工作负载提供内在的灵活性。
这个角色要求CPU在核心数量、内存、I/O(输入 / 输出)、带宽以及能效等方面具备高度优化的先进能力,以便在提升性能、控制成本的同时,帮助管理复杂的人工智能工作负载。
在4月的英特尔视觉大会上,英特尔推出了其数据中心支柱产品 —— 下一代至强处理器产品线。英特尔至强6处理器的设计考虑到了高度分布式且不断演变的计算环境,它采用了两种微架构而非单一核心架构。
6月,英特尔推出了适用于边缘、物联网设备、云原生以及超大规模工作负载等高密度和横向扩展环境的带有单线程高效核(E-核心)的英特尔至强6处理器。最近,这家芯片巨头又推出了适用于计算密集型工作负载(不仅是人工智能,还包括高性能计算和关系数据库)的带有性能核(P-核心)的英特尔至强6处理器。
凭借其新特性和新能力,带有性能核的英特尔至强6处理器或成为人工智能系统中CPU的更优选择。以下仅列举五大主要原因:
I/O性能:
在运行人工智能工作负载时,速度始终至关重要。带有性能核的英特尔至强6处理器提供的通道数量增加了20%,最多可达192条PCI - Express 5.0通道,可实现高I/O带宽。更高的带宽意味着CPU与GPU之间的数据传输速度更快,这对于人工智能训练和推理来说都是一项关键能力。为了履行其作为服务器CPU的职责,更多的通道意味着带有性能核的英特尔至强6处理器能够更快速、高效地将数据传输到GPU以处理人工智能任务,从而提高利用率,最大限度地提高性能和效率,并减少瓶颈。
更多核心且单线程性能更佳:
带有性能核的英特尔至强6处理器每个插槽的核心数量是其第五代前代产品的两倍。新增的核心以及较高的最大睿频频率也有助于该芯片更高效地向GPU提供数据,从而加快人工智能模型的训练时间,使其在功耗和成本方面更具效率。
新款芯片每个CPU最多可容纳128个性能核,在人工智能推理方面的性能比其他CPU高出5.5倍。较高的最大睿频频率提升了带有性能核的英特尔至强6处理器在管理高要求人工智能应用时的单线程性能,从而缩短了整体模型训练时间。
高内存带宽和容量:
高内存带宽和容量是人工智能工作负载中实时数据处理的关键因素,它们能够实现GPU与内存之间的数据高效传输,降低延迟,提高系统性能。
带有性能核的英特尔至强6处理器支持MRDIMM(多路复用列直插式内存模块),这是一种先进的内存技术,可提高内存受限且对延迟敏感的人工智能工作负载的内存带宽和响应时间。MRDIMM使服务器能够更高效地处理大型数据集,相较于DDR5 - 6400在处理人工智能任务时性能提升超过30%,并为最新款CPU提供比第五代英特尔至强处理器高出2.3倍的内存带宽,确保即使是最大、最复杂的人工智能工作负载也能轻松应对。
较高的系统内存容量也确保了对于那些无法完全装入GPU内存的大型人工智能模型有足够的内存,从而保证了灵活性和高性能。
英特尔率先推出了支持MRDIMM的产品,并且得到了美光、SK海力士和三星等公司强大的生态系统支持。
新款的英特尔至强CPU还配备了多达504MB的三级缓存,通过确保处理器经常需要的数据存储在附近的快速访问库中,从而降低了延迟,加速了任务处理所需的时间。
它还支持计算快速链路(CXL)2.0,该技术确保了CPU与连接设备(包括GPU)之间的内存一致性。内存一致性对于实现资源共享至关重要,这有助于提高性能,同时还能降低软件栈的复杂性并降低系统的总体成本,所有这些都有助于支持系统性能、效率和可扩展性。
CXL 2.0允许每个设备根据需要连接到多个主机端口以提高内存利用率,提供增强的CXL内存分层以扩展容量和带宽,并管理热插拔支持以添加或删除设备。
RAS 支持大型系统:
带有性能核的英特尔至强6处理器具备先进的RAS(可靠性、可用性、可维护性)特性,确保服务器随时可部署,与数据中心现有的基础设施兼容,并且不会意外宕机,在运行复杂且昂贵的人工智能应用时,宕机可能会造成极大的干扰并带来高昂的成本。通过遥测、平台监测和可管理性技术确保正常运行时间和可靠性,同时通过实时更新系统固件来减少停机时间。
英特尔资源导向技术为企业提供了对资源共享的可视性和控制权,以实现工作负载整合和性能提升。英特尔庞大的硬件和软件提供商及解决方案集成商生态系统有助于提高效率、灵活性并降低总体拥有成本(TCO)。
混合工作负载下的增强人工智能性能和可扩展能效:
最终,性能和能效至关重要,英特尔至强处理器在运行人工智能推理工作负载方面一直优于竞争对手。带有性能核的英特尔至强6处理器也不例外,其推理性能是AMD的EPYC 9654芯片的5.5倍。同时,其每瓦性能比第五代英特尔至强处理器高出1.9倍。
只有带有性能核的英特尔至强6900系列才具备的另一项特性是使用英特尔AMX(高级矩阵扩展),这是一种内置加速器,可使人工智能工作负载在CPU上运行而无需将其卸载到GPU上,并且现在支持FP16模型。它为通用人工智能和经典机器学习工作负载提供了集成的工作负载加速。
谷歌在测试中发现,英特尔AMX可提升CPU上深度学习训练和推理的性能,并指出对于自然语言处理、推荐系统、图像识别等此类工作来说,这是一个很不错的特性。
GPU和CPU:强强联手
GPU将继续是为加速人工智能系统提供动力以及训练人工智能模型的主导芯片,但企业不应忽视CPU在新兴市场中所扮演的关键角色。随着CPU的角色得到更明确的界定并被更广泛地使用,其重要性只会与日俱增。带有性能核的英特尔至强6处理器凭借其广泛的特性和能力,将在不断演变的人工智能计算世界中引领对主机CPU定义的潮流。