北京——2024年12月11日 亚马逊云科技在2024 re:Invent全球大会上,宣布推出一系列数据中心新组件,旨在支持新一代人工智能(AI)创新并满足客户不断变化的需求。亚马逊云科技通过对电源、冷却和硬件设计等进行的一系列创新,构建了一个更加节能的数据中心,为客户进一步创新奠定基础。亚马逊云科技在全球新推出的数据中心都将具备这些新组件,现有的数据中心已经部署了很多关键组件。
亚马逊云科技基础设施服务副总裁Prasad Kalyanaraman表示:“亚马逊云科技通过持续推动基础设施创新,致力于为全球客户构建性能卓越、可靠、安全且可持续发展的云。我们数据中心的这些新能力,包括能源效率的提升以及对新兴工作负载的灵活支持,是我们在云计算领域的又一重要进展。更令人兴奋的是,这些功能均采用模块化设计,这让我们得以对现有基础设施进行升级改造,实现液体冷却并提高能源效率,这不仅为生成式AI应用提供强大的动力,同时还降低了我们的碳足迹。”
亚马逊云科技拥有18年构建大规模数据中心的深厚经验,以及13年为AI工作负载提供基于GPU的服务器的丰富经验。目前,亚马逊云科技的数据中心为全球数百万活跃客户提供服务,包括数十万使用亚马逊云科技AI和机器学习服务的客户,以及全球数万个使用Amazon Bedrock构建其生成式AI应用的客户。随着生成式AI的日益普及以及客户对GPU容量需求的不断增长,亚马逊云科技不断调整和优化数据中心,以支持更高的功率密度需求。主要的提升包括:
- 简化电气和机械设计,提高可用性
亚马逊云科技始终致力于打造业界最可靠的基础设施。简化的电气和机械设计更可靠,并易于维护,能确保客户受益于高可用性,这是亚马逊云科技自创立之日起始终为客户提供的。
亚马逊云科技最新的数据中心设计优化中,就包括简化的电力分配和机械系统,实现基础设施的可用性达99.9999%。同时,简化的系统将可能受到电气问题影响的机架数量减少89%。
在亚马逊云科技的数据中心内,电力供应需经过一系列转换与分配过程,才能抵达IT设备。这一流程中的每一步骤都伴随着效率的损耗、能源的消耗,以及潜在的故障风险。例如,亚马逊云科技简化了电力分配系统,从而将潜在故障点的数量减少了20%。简化的另一个例子还包括将备用电源更紧密地集成至机架附近,并减少排热风扇的数量。亚马逊云科技使用自然压差来排出热空气,这提高了服务器的可用电力。这些改进措施不仅显著降低了整体能耗,还最大限度地减少了故障风险。
- 在冷却、机架设计和控制系统进行创新
亚马逊云科技推出了一系列新功能及增强功能,致力于为客户提供具有高性能、高可用性和能效卓越的基础设施。亚马逊云科技数据中心的创新包括:
- 液体冷却:新型的AI服务器将受益于液体冷却更有效地应对高密度计算芯片的冷却需求。亚马逊云科技开发了一项先进的机械冷却解决方案——在其新建及现有数据中心配置“液体到芯片”的冷却系统。一些亚马逊云科技的技术利用不需要液体冷却的网络和存储基础设施,因此更新后的冷却系统将无缝集成空气和液体冷却功能,用于支持包括如Amazon Trainium2的强大AI芯片系列,NVIDIA GB200 NVL72等机架级AI超级计算解决方案,以及亚马逊云科技网络交换机和存储服务器。无论客户运行传统工作负载还是AI模型,这种灵活的多模式冷却设计确保了亚马逊云科技都能以最低的成本为客户提供最佳性能和效率。这种独特的液体冷却机架设计是亚马逊云科技与领先的芯片制造商合作开发的,旨在加快AI工作负载的上市时间。
- 支持高密度AI工作负载:亚马逊云科技通过优化数据中心的机架布局,最大化电力使用效率。亚马逊云科技通过软件实现了这一点,该软件由数据和生成式AI驱动,能够精确预测服务器的最佳部署方式。亚马逊云科技将减少浪费的电力,包括闲置以及未充分使用的能源,从而更有效地利用可用的能源。
这一设计旨在满足AI工作负载对新一代硬件和高密度机架配置的需求,同时又保持足够的灵活性,适配其他广泛的硬件需求。亚马逊云科技基础设施为客户提供了广泛而深入的计算实例选择,现已提供超过750种Amazon Elastic Cloud Compute (Amazon EC2)实例,让客户可为几乎所有的工作负载选择最合适的处理器、存储、网络、操作系统以及购买选项。除了灵活的多模式冷却解决方案外,亚马逊云科技在电力传输系统上也实现了工程突破,使得亚马逊云科技在未来两年内能够将机架功率密度提升6倍,并有望在未来进一步提升3倍。这部分得益于新的电源架的应用,新的电源架能够高效地在整个机架内分配电力,显著降低了电力转换过程中的损耗。
总体而言,这些创新措施让亚马逊云科技每个站点为客户工作负载提供增加12%的计算能力。这一进步意味着在提供同等计算能力的情况下,所需的数据中心数量将会减少。
- 升级的控制系统:新推出的由亚马逊自主研发的控制系统已应用于亚马逊云科技的电气与机械设备中,实现了监控、报警和运营流程的标准化。例如,利用亚马逊云科技内部构建的遥测工具使用亚马逊云科技的技术,能够提供实时诊断和故障排除服务,这些服务确保客户保持最佳运行状态。此外,亚马逊云科技在提升控制系统冗余度的同时,也简化了系统复杂性。这些改进使得亚马逊云科技基础设施可用性设计达到99.9999%。
- 实现能效与可持续的双提升:机械能耗降低46%,混凝土含碳量减少35%
多年来,亚马逊云科技在推动基础设施能效与可持续性方面始终走在行业前列。据研究显示,亚马逊云科技的基础设施效率是企业自建基础设施的4.1倍,通过在亚马逊云科技上优化工作负载,相关的碳足迹能够最高减少99%。在2023年,亚马逊云科技已提前实现了运营所需电力100%来自可再生能源的目标,比原定的2030年提前了七年。
亚马逊云科技不断评估其数据中心的运行,通过不懈的创新提高基础设施的能源利用率。新组件在能效和可持续发展上的更新如下:
更高效的冷却系统,在高峰冷却需求期间,与前一代设计相比预计其机械能耗降低高达46%,同时每兆瓦的用水量不变。设计改变包括全新的单侧冷却系统、减少冷却设备数量以及引入液体冷却功能。
降低数据中心建筑外壳混凝土的固有碳排放量,较行业平均水平最高可降低35%。亚马逊云科技采用了规范的低碳钢和低碳混凝土,并通过优化结构设计来减少钢材的使用总量。
备用发电机将采用可再生柴油,这是一种可生物降解且无毒的燃料,与传统的化石柴油相比,其生命周期内的温室气体排放量可减少高达90%。亚马逊云科技已开始在欧洲和美国的数据中心推广使用可再生柴油作为备用发电机的燃料。
英伟达超大规模与高性能计算事业部副总裁Ian Buck表示:“随着AI需求的不断发展,数据中心亦需同步加速演进。先进的液体冷却解决方案能够高效的冷却AI基础设施,同时显著降低能耗。我们与亚马逊云科技在液体冷却机架设计上的携手合作,将帮助客户以卓越的性能和效率运行高强度的AI工作负载。”
“在Anthropic,我们致力于开发领先的基础模型,而安全、高性能且节能的基础设施是我们成功的关键,”Anthropic计算部门杰出工程师James Bradbury表示:“亚马逊云科技致力于构建先进的数据中心,这是我们选择其作为主要云服务提供商和模型训练合作伙伴的重要原因之一。亚马逊云科技的设计改进显著提升了基础设施的安全性、可扩展性和效率,为AI模型的运行和创新提供了强有力的支撑。” 亚马逊云科技的数据中心新组件将在亚马逊云科技全球基础设施进行部署,覆盖全球34个区域、108个可用区,以及如Amazon Local Zones等其他基础设施。预计在2025年初,包含完整组件的新型亚马逊云科技数据中心建设将在美国启动。