4月28日,在2024中国移动算力网络大会主论坛上,中国移动副总经理高同庆在演讲中指出,中国移动今年将商用哈尔滨、呼和浩特、贵阳三个自主可控万卡集群,总规模近6万张GPU卡,充分满足大模型集中训练的需求。

你是不是也对“超万卡集群”充满了好奇?比如,为什么要建设超万卡集群?能带来哪些好处?建设进展如何?面临哪些挑战?需要哪些技术支撑?

《海峰看科技》将结合本次大会有关超万卡集群的内容和《面向超万卡集群的新型智算技术白皮书》,通过十问十答的方式,带大家一探究竟。

Q1:什么是超万卡集群?

超万卡集群是指由超过一万张加速卡(如GPU、TPU或其他专用AI加速芯片)组成的高性能计算系统,用以加速人工智能模型的训练和推理过程。

举个例子,如果要盖一座摩天大楼,还有一定的工期限制,只有几十个人的工人小队肯定拿不下来,这时候怎么办呢?

想象一下,如果有一个超级工地(超万卡集群),里面有上万个超级能干的高级技工(加速卡),每个技工都有自己的小工具箱(加速卡上的处理器),他们可以通过对讲机(高速网络)互相沟通、高效协作,战斗力可不得爆表。

Q2:为什么要建设超万卡集群?

大模型火了以后,千行百业都在加速从“+Al”向“Al+”转变。随着模型参数量从千亿迈向万亿,大模型对底层算力的诉求进一步升级。

以GPT-4为例,GPT-4拥有16个专家模型共1.8万亿参数,一次训练需要在大约25000个英伟达的A100上训练90到100天,对算力的消耗非常大。

在上述背景下,分散的小规模算力资源就显得捉襟见肘,超万卡集群应运而生,甚至被看做大模型基建军备竞赛的标配。

Q3:超万卡集群在国外的建设情况如何?

超万卡集群听着这么强,那大家不得争相建设。是的,放眼全球,各大科技巨头都在积极部署千卡乃至超万卡规模的计算集群。

在国际大舞台上,诸如Google、Meta、Microsoft等科技巨头,正利用超万卡集群推动其在基座大模型、智能算法研发及生态服务等方面的技术创新。

比如Meta在2022年推出拥有16,000块Nvidia A100的Al研究超级集群Al Research Super Cluster。2024年初又公布2个24576块Nvidia H100集群,支持下一代生成式Al模型的训练。

Q4:国内跟进超万卡集群建设的多不多?

再看国内情况更热闹。目前,通信运营商、头部互联网、大型Al研发企业等均在发力超万卡集群的建设,比如中国移动、华为、字节跳动、阿里巴巴、百度、科大讯飞等。

除了中国移动,其实中国电信也在迅速跟进。笔者获悉,2024年上半年,中国电信将在上海规划建设到达15000卡,总算力超4500P,将是国内首个超大规模国产算力液冷集群。

再以华为为例,去年7月,华为宣布昇腾AI集群全面升级,集群规模从4000卡集群扩展至16000卡,是业界首个万卡AI集群,拥有更快的训练速度和30天以上的稳定训练周期。

Q5:建设超万卡集群面临哪些挑战?

目前超万卡集群的建设仍处于起步阶段,面临的挑战确实不少,这里跟大家说三点。

其一,极致算力使用效率的挑战。集群规模的线性提升并不直接导致算力的线性提升,这就需要优化卡间和节点间的互联网络、软硬件适配调优。

其二,海量数据处理的挑战。大模型训练需要处理PB级数据集,对存储系统的checkpoint(检查点)读写吞吐性能要求达到10TB/s。但是传统存储系统在协议处理、数据管理和吞吐性能方面存在挑战,需要通过协议融合、自动分级等技术手段提升效率。

其三,超大规模互联的挑战。随着模型规模扩大,需要多机多卡互联和并行训练策略,这对网络的ScaleOut(横向拓展)和ScaleUp(纵向拓展)提出极高要求。这就参数面网络和数据面网络需要具备高带宽、低时延和高可靠性,支持大模型训练的数据吞吐和计算需求。

Q6:建设超万卡集群要考虑哪些设计原则?

正如前文所述,超万卡集群的搭建不是简简单单的算力堆叠,要让数万张GPU卡像一台“超级计算机”一样高效运转可不是件容易的事。

因此在设计之初,建设者需要考虑打造极致集群算力、构建协同调优系统、实现长稳可靠训练、提供灵活算力供给和推进绿色低碳发展五大原则。

Q7:超万卡集群的架构设计是怎样的?

超万卡集群的总体架构由“四层一域”构成。四层分别是机房配套、基础设施、智算平台和应用使能,一域是智算运营和运维域。

备注:本图出自于《面向超万卡集群的新型智算技术白皮书》

简单来说,大家可以把超万卡集群的“四层一域”架构,想象成一栋大楼的不同部分,每一层和领域都有自己独特的功能和作用,确保整个系统可以像一个精密的机器一样运转。

其一,机房配套层就像是大楼的地基和框架,它为整个集群提供了必要的物理条件;

其二,基础设施层相当于大楼内部的电梯、楼梯和管道等基础设施;

其三,智算平台层就像是大楼中的办公空间,提供了一个平台,让各种智能算法和模型可以在上面运行和开发;

其四,应用使能层就像是大楼内的公共服务区域,比如会议室、休息室等,它为租户提供必要的服务和工具;

其五,智算运营和运维域像是大楼的物业管理办公室,负责整个大楼的运营和管理。

Q8:超万卡集群使用了哪些黑科技?

目前,超万卡集群主要使用了集群高能效计算、高性能融合存储、大规模机间高可靠网络、高容错高效能平台和新型智算中心机房五大技术。

以集群高能效计算技术为例,如果想要全面提升底层计算能力,业界都有哪些办法?

想象一下,要赢得一场足球比赛(计算集群表现最优),作为教练的你,可能会安排:

其一,通过平时的刻苦训练,让每个球员提升技能和速度(增强单芯片能力);

其二,球队中组成特别战术小组(提升超节点计算能力),队员通过特别的训练和协作,更高效地完成比赛中的某些关键任务;

其三,球队中不同位置的球员之间无缝配合(基于DPU实现多计算能力融合),无论前锋、中场还是后卫,都能流畅地传球和支援;

其四,球队在保持比赛强度的同时,还要注意节省体力(追求极致算力能效比)。

Q9:超万卡集群未来会怎样演进?

随着数据规模持续扩大、集群能力的不断增强以及大模型应用的日益丰富,未来业界可能会在引入超节点、探索跨节点互联网络技术、软件框架等领域实现技术突破。

与此同时,业界还会持续探索存算一体、光子芯片等先进技术领域与智算中心的结合,为下一次信息变革奠定基础。

Q10:对于超万卡集群,行业有哪些新观点?

在本次大会上,中国工程院院士郑纬民给出了自己的思考。“构建国产万卡系统,虽然很难,但也很必要。”郑纬民强调道。

在郑纬民看来,英伟达一卡难求,国产卡应用不足,当前14个国家级超算中心的计算资源尚有富余,采用软硬件协同的设计在超算机器做大模型训练成为可能。

具体来说,国产软件生态可以通过编程框架、并行加速、AI编译器等方式进行优化,使国产算力有足够的能力支撑大模型训练的工作。