云计算从诞生以来就是一种将计算、存储和网络资源以服务的形式对外提供的商业模式,是信息技术发展和服务模式创新的集中体现,得到客户和市场的高度认可。云计算已经成为数字经济发展不可或缺的基础设施,承载的应用包括传统互联网和移动互联网应用,涉及政府、交通等千行百业。云计算不仅是传统通用计算应用的数字化转型,而且包括智能计算等新型应用类型,特别是 AI 大模型的出现,对云服务能力提出了更高的要求。目前,计算机体系结构进入发展的黄金十年 ,体系结构的创新对云计算技术创新的影响正在显现,在多重因素驱动下,云计算的基础设施在架构、资源和管理等方面必将迎来一场新的技术革命。
1 云计算需求推动技术革新
信息化时代,云计算市场和业务层面的需求都推动云计算技术向前演进。在市场方面,云计算市场进入稳定增长阶段,市场竞争格局愈演愈烈,云行业巨头加速发展。在业务需求层面,以通用业务为主转变为通智网融合的新型多元业务模式,为云计算发展带来新需求。
1.1 云计算市场需求
从市场发展看,企业上云成为不可逆转的趋势。2023 年 7 月 6 日,国际数据公司(International Data Corporation,IDC)发布的《全球公共云服务半年度跟踪报告》显示,2022 年全球公共云服务市场收入总计达到 5 458 亿美元,比 2021 年猛增 22.9%。根据 Gartner 的预测,2023 年全球用户在公共云服务上的支出预计将增长 20.7%,总计将达到 5 918亿美元。从市场格局来看,云计算领域的国际竞争加剧,中美差距正逐渐拉大,亚马逊 AWS、微软云Azure 保持高速发展态势,市场份额占全球一半,谷歌云 2022 年所占的市场份额为 6.1%,超过了阿里云的 5.2%,取代阿里云成为全球第三大云厂商。
1.2 云计算业务需求
从业务发展来看,通算业务数量激增,智算、超算业务异军突起,网算业务特色发展 ,多元业务融合推动新型业务模式的出现,为云计算的计算规模、存储容量、网络连接、服务模式等方面带来新的需求。以工业互联网、元宇宙为代表的新型业务场景融合通算、智算、网算多元业务,具有通算实时处理、智算推理决策、云网融合生态构建多方位需求;政策引领企业深度上云用云,赋能传统企业数字化转型升级,企业数字化转型要求云基础设施具有快速响应、高可用性、高扩展性等特性;大模型推动智算业务高速发展,需要处理海量数据、大规模的参数训练,对算力、存储、网络等基础设施高性能、大容量、低带宽的需求日益增长;主流云商、运营商持续推动网络全面上云,催生云计算基础设施向通信行业深度定制化升级,需在基础设施层面彻底打破云和网的技术边界,构筑统一云网资源。
2 下一代云计算基础设施架构与特征
下一代云计算基础设施逐步走向技术融合体系化创新,延伸带动异构基础设施融合统管,向上赋能服务体系升级,构建产业智能的数字化新世界。遵循下一代云计算业务的需求变革,下一代云计算基础设施呈现出高效能、广分布和超大规模的特性。
2.1 体系架构
下一代云计算基础设施架构以分布式多云为核心,构建“一云多算”融合底座,依托异构资源统一管理、分布式任务协同框架,打造 AI 贯穿的新型服务体系,支撑以通算、智算、超算、网络融合业务的一体化承载,实现全链路业务的可用性保障。在总体架构上,保留传统云架构的分层体系;在云网资源建设上,强调多种类型资源池的分布式优化布局;在软、硬件资源层强调多样性,进一步划分为以 CPU 为主的通算基础设施和以 GPU 等 AI 加速芯片为主的智算基础设施。分布式云平台对多维异构资源进行统一纳管,并实现任务高效协同调度。在基础设施架构之上,云服务形态呈现通用化和智能化发展趋势,承载多元业务类型,提供丰富的产业数字化能力。下一代云计算基础设施架构如图 1所示。
图 1 下一代云计算基础设施架构
(1)分布式云网资源。
云资源池呈现分布式、多云、全域部署模式,以云为中心构建全国一张网。以地理空间划分,实现从中心、区域到边缘 3 层级覆盖能力 。分布式云网资源池如图 2 所示,中心云资源池部署在资源集中的热点区域,向超大规模集约化发展;区域云资源池满足热点业务,具有一定规模,同时兼具时延优势;边缘云资源池可建设在更靠近用户和数据生产源头的网络边缘,主要包括小型化云节点,解决用户侧边缘的定制化需求。多方云资源池混合部署,加强多云商资源池互联互通且互为增强,以算力资源交易的形式提供高效、去中心化、实时便捷的资源供给,实现全域基础设施能力覆盖。入云网络应具备高速泛在、天地一体的全连接能力 。除了网络和专线等基础接入能力,还应具备“5G+ 千兆光宽 +WiFi 6”的三千兆接入能力及协同卫星网络打造天地一体的差异化服务的能力。云间网络应具备高带宽、高质量特性,引入确定性网络、全光网络等技术,实现中心云与区域云、区域云与边缘云、边缘云与边缘云间的按需、可靠的高速互联。
图 2 分布式云网资源池
(2)通智融合基础设施。
通用计算基础设施主要指基于 CPU 芯片的服务器,在中心侧和边缘侧分布式部署,由全域覆盖的入云 / 云间网络拉通业务访问和数据获取,主要实现通用计算业务的资源供给。通用计算基础设施还包括以实现网络云化业务为代表的某些能力定制化增强的基础设施,提升不同业务场景下的基础设施的性能。智算基础设施基于 GPU、FPGA[9]、ASIC 等芯片,为 AI 应用提供所需算力服务、数据服务、算法服务的公共算力新型基础设施 ,通常表现为大规模、高性能、高可靠性的智算集群。使用大算力芯片及大容量内存等能力支撑模型训练、推理等计算密集型任务;使用高速、大容量的存储设备及存储技术,基于分布式架构实现高可用性和可扩展性。围绕远程直接内存访问(Remote Direct Memory Access,RDMA)构建高性能网络体系,其组网架构具备大规模、跳数最优的网络连接能力。基于端网协同和软硬融合构建高带宽、低延迟的无损网络。
(3)全局化管理调度。
多维度、异构资源统一管理,面向业务进行任务与基础设施资源的高效适配。通过对不同技术架构搭建的计算资源、网络资源和存储资源进行抽象,并将当前各类公有云、私有云平台的不同类型资源整合到统一的管理框架,实现全局异构资源统一纳管,能更好地应对业务负载对资源的多样化需求,发挥各类资源的特性和优势,提高整个系统的效能。面向大规模业务进行功能模块解耦,子任务间通过网络交互完成业务处理,分布式任务协同通过将上层子任务需求与底层基础设施资源进行适配,实现任务的精准实时、稳定高效调度和编排。任务调度策略根据资源管理层提供的资源状态信息和性能指标进行定制,推进任务需求动态调整资源的分配和使用,提升面向超大规模业务的资源管理调度能力。
(4)智能化服务模式。
上层以云服务形式承载包括数字化业务、智算业务、超算业务和网络业务在内的多元解决方案,将 AI 融入基础设施即服务(Infrastructure as a Service,IaaS)、平台即服务(Platform as a Service,PaaS)、软件即服务(Software as a Service,SaaS)层,实现数字化业务的全面升级 。扩展新应用场景下的模型即服务(Model as a Service,MaaS)新型服务模式,打通数据平台、深度学习训练框架、推理部署引擎和模型生产平台,实现从数据存储、标注到模型训练、生产、部署、测试的全链路、批量化过程。
2.2 核心特征
下一代云计算基础设施的核心特征为广分布、高效能和超大规模。
(1)广分布的云网资源。
依托分布式云架构,实现从服务商云资源池、用户本地云资源池到生产现场的近全域基础设施广覆盖;提供全面连接、高可靠网络保障,提供空天地海一体化的广连接;在不同地理位置资源池提供一致性服务,提供随时随地一键式云网资源供给。
(2)高效能的硬件资源供给。
基于绿色先进的多元算力,实现十倍以上计算性能的提升。构建集约高效的新型存储,提供数字化浪潮下的海量存储需求。推动系统级断网协同体系创新,构建十万级节点间的低耗高速互联网络。
(3)超大规模管理调度。
数据管控规模持续增加,提供 PB 级大数据体量的多模态数据管理调度;支撑复杂业务需求逻辑烦琐、交互频繁的模块化管理,实现面向复杂业务逻辑的管理调度;海量的数据和高复杂度的算法,驱动云平台实现百 E 级更大规模算力的统一管控。
3 下一代云计算基础设施关键技术
下一代云计算基础设施依托算力、存储、网络等方面的关键技术,推动云计算基础设施向高效能演进。在计算层面融合 AI 芯片,通过 RISC-V 指令集 统一多元异构计算架构提供云服务算力基石;在网络层面面向大规模、高带宽、低时延及高可靠的集群通信需求,构建基于 RDMA 的高性能智算中心网络体系;在存储层面,面向海量数据存储和并行处理需求,引入新型存储技术提供高速、高并发和低时延的读写性能,共筑高效能的硬件资源供给。
3.1 以 RISC-V 为导向的通智异构算力技术