对话阿里云吴结生：AI时代，云上高性能计算的创新发展

访客 2024-11-05 15:10:34 13945 抢沙发

默认

Hyperion Research 预计，云端 HPC 市场的增长速度将是本地服务器市场的两倍多，到 2027 年，云端 HPC 市场规模预计将超过 140 亿美元。

原先 HPC（High performance computing，高性能计算）" 高高在上 "，几乎只应用在高精尖科研领域，但随着以 AI 代表的新一代数字技术的应用，HPC 也在更多行业有了 " 大展拳脚 " 的机会，在企业侧的应用场景也越来越多。

从 HPC 到 Cloud HPC

在阿里云智能集团副总裁，弹性计算产品线负责人、存储产品线负责人吴结生看来，如今已经有很多行业应用了高性能计算，且高性能计算的负载正呈现出多样化发展的趋势，" 当下，很多基础模型的预训练、自动驾驶、生命科学，以及工业制造、半导体芯片等行业和领域都应用了高性能计算。" 吴结生指出。

阿里云智能集团副总裁，弹性计算产品线负责人、存储产品线负责人吴结生

传统模式下，HPC 因其独有的定位、复杂的架构，以及极高的运维难度，造成了成本高昂，且适配业务发展特性较差，这也让很多企业 " 望而却步 "。

而当企业对于高性能计算的需求不断增加时，如何让更多企业 " 用得起 " 和 " 用得好 " 高性能计算成为行业面临的难题。

这时候，云计算就承担起了让 HPC 被更多企业，更便捷应用的重任。谈及 Cloud HPC 的优势时，吴结生告诉钛媒体 APP，以云计算的模式应用高性能计算，具备了四个显著的优势：首先，是弹性的能力，通过云的方式，具有高度的弹性，可以弹性地分配、调用大规模资源，让企业获得的算力更高；其次，Cloud HPC 具备异构计算的兼容性能力，以云的方式，可以对异构芯片之间的算力进行整合，兼容性更强；第三，Cloud HPC 让用户具备了快速部署的能力；第四，与本地化的 HPC 相比，Cloud HPC 具备了平台化的数据处理生态。

就数据处理能力，吴结生向钛媒体 APP 举例详细介绍到，以汽车研发为例，汽车研发的过程中需要用到仿真计算，仿真计算在预处理的过程中会产生数据，计算的过程中也会产生大量数据，如何将处于不同位置的数据 " 挪动 "，整合到一起，就成为了传统 HPC 时代的难题。

Cloud HPC 的出现很好的解决了这个问题，吴结生告诉钛媒体 APP，通过弹性高性能计算集群，加上并行文件存储系统，可以免除数据的挪动，提升整个系统的能力，从而提升效率，缩短产品研发进程。因此可以看出，云上的高性能计算，具备借助整个云平台，将包括计算、存储、网络和一些安全方面的能力叠加起来的优势。

" 按需制宜 "

从目前应用趋势上来看，用户对于算力的需求的多样化的。这种情况下，显然单一的计算架构已经不能满足所有用户的需求。

" 算力目前遇见的核心问题就是：计算架构的单一性与算力需求多样性之间的矛盾。" 中国工程院院士邬江兴曾在 2024 年全国高性能计算学术年会上公开表示，" 算力需求是多样性的，面对不同的场景、不同的计算环境、不同的任务类型、不同的性能需求，需要不同的算力架构。可是计算架构是单一的，目前的情况走下去，会有两种发展结果：一个是‘削足适履’，一个是各自为政，都不是好的发展结果。"

这样的算力困境同样发生在高性能计算领域，吴结生告诉钛媒体 APP，多元化的负载需求，也对高性能计算提出了新的挑战。面对这些挑战，吴结生认为，企业需要通过多样化的产品、系统架构和技术方案，来满足不同负载对计算能力、存储性能、网络带宽等方面的差异化需求。

从需求侧出发，根据不同的业务场景，以及场景下算力的耦合度和数据的密集度可以大致划分为松耦合、紧耦合，吴结生告诉钛媒体 APP，算力越耦合，就越需要高性能的网络连接能力，针对不同的业务场景，用户应该选择相对应的产品架构，这样才能在确保计算效率的同时，降低使用算力的成本。

在松耦合场景下，用户对于延迟的要求不是很高，对算力的类型也没有要求（比如对 CPU 代系没有强要求）。但是，该场景下，用户对性价比的要求更高，他们需要以更低的成本，更高的弹性，实现算力的全局调度，" 阿里云借助自身积累的云资源规模，加之创新性的 CIPU（云基础设施处理器）架构，提供 E-HPC Instant 来服务‘松耦合’的高性能计算负载，" 吴结生指出，" 通过 E-HPC Instant 对云上所有可用区的资源进行不同代系的算力抽象，并实现全局的资源分配和任务调度，满足用户对于弹性的需求。"

吴结生以制药行业为例分享了具体松耦合场景中的架构经验，他表示，在该场景下，客户有高吞吐量的弹性计算需求—随时需要大规模的 CPU、GPU 计算资源，计算峰值大、任务并发度高。阿里云的产品为客户提供了弹性按需的海量资源：智能调度底层大规模基础设施，任意时刻提供 10 万核以上的资源保障，优化大并发下计算和存储性能，显著提高药物研发效率，只需原来 1/3 的成本。

在紧耦合场景下，大多业务场景都存在计算任务多、规模大、计算时间紧张等特点，这种场景更为适合 Cloud HPC，利用云资源的规模大、并行计算能力强等特点，满足企业对于高性能计算的需求。

针对此，阿里云推出了高性能计算平台— E-HPC 平台，可以同时提交 AI 作业和传统 HPC 的作业，在资源管理层，同时管理了 HPC 的 Slurm 集群和 AI 的 ACK ( K8s ) 集群，作业管理层根据作业类型将 AI 作业和 HPC 作业分别投递到相应的集群上运行。

以汽车行业为例，目前的研发周期需要效率非常高，本地 HPC 集群硬件资源老化，严重影响业务进度，并且业务流程割裂：线下前后处理与线上求解计算的流程割裂，数据挪动频繁。" 如果建一个 1000 台机器这样的一个超算集群，传统方式肯定是几个月。那么今天在云上 10 万核的需求我们可以在不超过一天之内建好。并且客户可以利用云的资源规模去做弹性的资源分配。在云上可以获取丰富的以及最新代际的算力形态，满足各种不同工作任务的这种负载的需求。"

在吴结生看来，E-HPC 高性能计算服务落地过程中最大的挑战是——任务的计算实例之间需要紧耦合的通信。面对这个痛点，阿里云首先以 CIPU 作为所有底层物理资源的连接器，将底层物理资源统一纳管，提高计算效率，进而加速 IO 效率，通过 eRMDA 网络大幅提升紧耦合的 HPC 工作负载性能，最终实现以更低成本，更快速度的交付能力。

除此之外，吴结生告诉钛媒体 APP，E-HPC 还通过多层次的网络拓补感知与弹性扩容的能力，快速弹出网络拓扑上靠近的 ECS 计算集群，适应紧耦合 HPC 作业极致性能要求。

AI 时代，云上HPC 如何更好用？

ChatGPT 的横空出世让 AI 又一次成为了科技圈关注的焦点。这一轮的 AI 的火爆在吴结生看来，也将彻底改变所有行业，" 当下几乎所有的行业龙头公司都已经是数据公司了，未来都将会是数据 +AI 的公司。" 吴结生告诉钛媒体 APP。

" 大模型的训练场景是比较传统的高性能计算在云上的一种重新复兴，我们称之为极致紧耦合的场景。" 吴结生将大模型厂商的算力需求总结为：这些企业需要稳定大规模高性能的训练算力，并需要弹性拓展的推理算力，还需要数据处理的速度和弹性能力，以提高资源利用率并降低成本。

当前大模型的预训练需要集群化，构建万卡甚至更大的集群，且整个集群需要是一个庞大的 " 整体 "，若其中一台机器出问题，都会造成训练中断。" 大模型的训练就像是一排人两个、两个的将腿绑在一起，共同前进，这种并行的方式，一旦有一个人反应慢了或者倒了以后，可能整个队伍的前进速度就被拖累了。" 吴结生以一个生动的比喻比拟了大模型的训练过程。" 让每张 GPU 卡，每台机器都以相同的‘步伐’前进，才能提升整体的模型训练效率。" 吴结生如是说。

为了实现上述所描述的 " 相同步伐 "，阿里云灵骏集群采用 HPN 7.0 的网络架构，通过一系列的创新来支持更大的规模、更优的效率和更高的稳定性：一方面，阿里云为每台机器 3.2T 的 RDMA 的计算连接，让每台服务器之间的通讯更顺畅；另一方面，后端 GPU 互联网络和前端网络分离，减少存储的访问对算力通信的干扰，进而提升了整体 GPU 集群的计算效率。

这样的 " 相同步伐 " 也对存储能力提出更高的要求。在大规模的模型训练过程中，经常会遇到各种原因而被迫中断。" 我们的头部大模型客户提出了连续的、分钟级的 Checkpoint 的读写要求，这对存储的吞吐要求是非常高的，这是为什么在阿里云灵骏智算服务里面，提供了高性能的并行文件系统 CPFS，满足训练和推理的超高性能和成本优化要求。通过 CPFS，网络的双上联、系统监控、自定位和自愈等优化，降低中断次数和时间，使得我们训练时长的有效率高达 99%，" 吴结生指出。

无论是松耦合、紧耦合，还是极致紧耦合，面对多元化算力需求，CIPU 是阿里云基础设施的基石，是差异化竞争力的主要来源之一。通过 CIPU 架构，可以实现 0 虚拟化开销，让企业能更充分的利用 CPU、GPU 资源，从而减少开销。除此之外，CIPU 架构还通过硬件加速的方式，进一步提升 IO 和存储性能，" 目前，阿里云已经推出了 2.0 版本的 CIPU 架构，整机稳定性提升 20%，带宽性能可达 400Gbps，VPC 可达 6000 万 pps，弹性 RDMA 可达 5000 万 message/s，存储性能可达 360 万 IOPS，50GB/s，这些性能都达到了业内领先水平。" 吴结生指出。

当下，每一家公司都是一个数据公司，很快每一家公司都会是一家数据 +AI 的公司，云计算一直在践行 Scaling Law，高性能计算也将焕发新的动能，云计算提供的规模化、高性能、可扩展的算力与存力，会帮助企业在进行业务规模的扩展的同时，应对好数据规模的扩展，充分使用好 AI 模型以及基于模型的各类应用。我们也期待看到，云计算厂商可以不断创新，提供多元化的产品组合，帮助企业在不同负载场景中落地应用，实现智能化创新。

（本文首发于钛媒体 APP，作者｜张申宇，编辑丨盖虹达）

标签：高性能阿里