国君通信:AI超算浑然一体,光互联地位显著提升
2023-06-03 15:34 星期六
国君通信团队
①超算中心趋于一个整体,光互联重要性快速提升。
②GH200性能提升原因在存储,H100仍为主流场景应用。
③芯片光模块比为1:9,比H100 NVLink组网更高。

编者按:Nvidia创始人黄仁勋在台北Nvidia Computex 2023研究中宣布发布DGX GH200产品,该产品通过将256个Grace Hopper超级芯片连接成一个新型AI超级计算机。黄仁勋在大会上反复提到,未来的超算数据中心将表现的越来越像一个超级计算机,正如这次DGX GH200系统可以将256个GPU无缝连接,使其性能等于一个超大号的GPU。国泰君安证券通信团队发布研报指出,超算中心与传统云中心相比,网络相关投入比例将继续增加,建议重点关注数通产业链和算力网络链。

投资要点

超算中心趋于一个整体,光互联重要性快速提升。Nvidia CEO黄仁勋在大会上反复提到,未来的超算数据中心将表现的越来越像一个超级计算机,正如这次DGX GH200系统可以将256个GPU无缝连接,使其性能等于一个超大号的GPU。DGX GH200里面采用了242.4公里的光纤,证明在高速互联领域,对光通信器件、模块的应用将大大增加,光进铜退的趋势在服务器外部的层级趋势越来越明显。

GH200性能提升原因在存储,H100仍为主流场景应用。集群性能的提升主要有算力本身、网络、存储三大要素。市场担忧DGX GH200对GPT3训练性能提升2.2x,不利光模块比例提升。但算力层面,单颗GH芯片和H100芯片FP8浮点算力没有差异。存储层面,DGX GH200内部GPU和CPU的连接方式与DGX H100不同,其高速触达的存储容量可以大幅提升。我们观察到对于同样消耗数十TB内存级别的操作,存储瓶颈越明显,DGX GH200系统表现就比DGX H100集群越优越。因此,传统GPT3、GPT4等主流大模型下,DGX H100集群(NVLink联网)与DGX GH200系统没有明显差异,因为存储、网络、算力都不是瓶颈。

芯片光模块比为1:9,比H100 NVLink组网更高。这个数字比DGX H100使用NVLink组网下还要高2倍,主要的差距在于是DGX H100服务器内到服务器外做了2:1的收敛,8个GPU仅用了4个NVSwitch芯片,无法做到1:1无阻塞的传输。而GH200是6个NVSwitch芯片对应8个GPU,可以实现胖树架构,因此这个光模块比例约比256个H100 NVLink组网方案多一倍。

投资建议:超算中心与传统云中心相比,网络相关投入比例将继续增加,重点关注数通产业链和算力网络链:1)数通光模块核心标的:模块龙头、新易盛、天孚通信、光迅科技;2)稀缺的光芯片突破企业:光芯片龙头,光库科技,仕佳光子;3)有望突破的模块企业,受益标的:剑桥科技、博创科技、华工科技。

风险提示:DGX GH200推广不及预期,AI训练需求不及预期

1. DGX GH200光互联比例大幅增加

事件回顾:Nvidia创始人黄仁勋在台北Nvidia Computex 2023研究中宣布发布DGX GH200产品,该产品通过将256个Grace Hopper超级芯片(下称GH芯片)连接成一个新型AI超级计算机,其GPU存储容量144TB,在历代里面最高,同时可以提供1 EFlops的FP8 Transform Engine算力。

发布会以来,DGX GH200的网络结构、DGX GH200的应用场景、DGX GH200的算力是否提升成为市场最关注的焦点,我们在本报告尝试作出自己的理解和解答。

1.1. DGX GH200应用场景特定,内存容量大幅提升

市场关注:DGX GH200的性能优势体现在哪里,可能应用在什么场景,是否会对DGX H100产生替代效应。

从随之发布的技术博客内容看,DGX GH200目标使用场景为“存在GPU内存容量瓶颈的AI和HPC应用。”博客中强调,许多主流的AI和HPC应用负载实际上可以完全放在一个单独的DGX H100服务器中,对于这样的工作负载,DGX H100是最具有性价比的训练方案。而对于其他的工作负载,例如深度学习推荐模型,需要TB级别的嵌入表,以及TB级别的图像神经网络训练模型,或者大型的数据分析负载(数十TB级别的join、排序),可以看到DGX GH200对于大型记忆模型的表现比DGX H100集群(Infiniband组网)是要提高5-6x。

DGX GH200存储大是因为GPU可以NVlink高速访问更大容量的CPU的内存,而不是通过传统的PCIe。传统的AI服务器内GPU网络主要有两种,一类是NVS,一类是PCIe的形式。而DGX GH200作为超大型计算机,GPU存储容量大,是因为在GH芯片中,GPU通过NvlinkC2C连接Grace CPU,从而可以直接访问Grace CPU的512GB内存。

CPU和GPU的NVlink-C2C连接可以提供900GB/s的总带宽,是普通加速系统GPU和CPU连接使用的PCIe Gen5(这里使用16个通道,每个通道是8GB/s)通道的7x。而每个GH芯片中有480GB/512G的CPU内存,以及高达96GB的GPU侧HBM3内存,最终所有256个GPUs连接可以访问到累计150TB(或者GH200宣传的144TB)的存储。而H100单颗芯片HBM3最多为80GB,而且与X86 CPU的内存侧无法高效的进行互联,因此DGX H100的共享内存大致仅640GB的显存。

1)H100与GH200芯片本质是分立GPU和集成CPU+GPU的关系。H100是分立的GPU,因此它和CPU的连接需要PCIe。而GH200芯片是集成了CPU和H100 GPU,两者可以用超高效的Nvlink-C2C连接,导致单颗H100芯片和GH200芯片可高速访问的存储容量不同,组网形成集群后可高速访问的存储容量也不同,最终对应的应用场景不同;

2)DGX H100满足大量主流应用的需求,DGX GH200是特殊应用场景。许多主流的AI和HPC应用负载可以完全放在单独的DGX H100服务器中, DGX H100是最主流的应用训练方案。而DGX GH200一般是满足TB级别内存容量需求的最佳选择。模型训练需要的内存级别越大,两者性能差距越明显。

1.2. DGX GH200和DGX H100集群性能差异并非算力造成

市场担忧:DGX GH 200表现出来的训练性能是DGX H100集群的2.2倍,市场认为这是单片GH200芯片与H100算力的差异2倍造成的,所以担忧换算成H100,单个H100对应的光模块需求量其实并没有增加,同时,由于各场景训练性能效率更好,所以形成替代关系,不构成利好。

我们认为,GH芯片与H100芯片在FP8算力上没有差异。一方面,GH芯片部本来即由一个H100和CPU组成;另一方面,单个H100的芯片算力参数和单个GH芯片的算力参数是一致的。如下图所示。

我们认为是内存瓶颈和联网方式是导致测试结果中性能差异最重要原因。1)内存瓶颈要素:性能图上,底部有一层小字,列举了不同的测试对应的GPU数量,我们计算了这些GPU对应的显存情况,结果表明Nvidia的测试结果普遍是在让H100达到内存瓶颈,而GH200不达到瓶颈的角度去测算。2)网络连接要素:此外,传统DGX H100集群是采用Infiniband组网,而本次DGX GH200是采用Nvlink组网。NVLink是局部极高带宽的通信,DGX GH200已经扩展到了整个256个芯片级别,可以实现无阻塞,单个GH芯片接入带宽可以有3.6Tb/s;而如果选用Infiniband连接,单个H100芯片接入带宽(1个Connect-X 7)仅为400Gb/s,性能差并不与网络差形成正比关系,因为只要网络是充足的,再扩大网络是不会线性的再继续提升。

1.3. DGX GH200 芯片与光模块比例如何?

我们认为应该自底向上采用流量法测算其网络端口数。考虑其博客提及DGX GH200采用胖树和无阻塞的拓扑结构。因此我们的测算思路是:

计算出Grace Hopper超级芯片的连接到L1层NVLink交换机的北向流量;

计算出L1层到L2层交换机的流量。

最后考虑可能选用光模块的端口部分。

1.3.1. 芯片接入层流量的测算

GH200芯片架构中,GPU部分连接到NVLink链路中的连接方式和速率与DGX H100一样,即每个GPU采用18个NVLink4,每条NVLink4单向带宽为25GB,即单个GH芯片带来18*25GB=450GB的接入带宽。因此一个Block里面8颗芯片带来的流量是8*450GB/s=3.6TB/s,整体256颗芯片带来256*450GB=115200GB。

1.3.2. L1层Nvlink交换机层级

NVLink交换机本质是由2个NVSwitch芯片组成的NVLink交换设备,其中每个NVSwitch芯片拥有128个Lane,这里的2个Lane速率与前述的1个NVLink速率对应,对应112Gb/s PAM4/lane 。因此,一个NVLink交换机为25.6Tb交换容量,32*800G端口。

我们认为DGX GH200 L1层可以实现无阻塞、1:1的传输,主要原因是相较DGX H100结构8个GPU对应4个NVSwitch的架构,最终L1层采用了2:1的收敛比。而这里采用了8个GH芯片对应6个NVSwitch芯片的架构, 6个NVSwitch芯片可以接收6*12.8Tb/s=9.6TB/s,大于芯片层过来的3.6TB(8*450GB)的2倍,可以实现1:1的传输。而DGX H100由于仅有4个NVSwtich芯片,可以支撑4*12.8Tb/s=6.4TB/s,小于8个H100带来的3.6TB的2倍,因此需要做2:1的收敛来满足流量设计的要求。

从下图设备结构看,无论是L1与芯片的连接,还是L1与L2层设备的连接,都采用网络端口OSFP的形式,因此计算下,拓扑图中96个L1层交换机平分256个GH芯片上行带来的256*450GB=115200GB流量,即平均每个L1层NVLink交换机32个端口中,有9.6Tb/s被下行流量占用,即12个800G端口,有9.6Tb/s要向北向,也是对应12个800G端口,因此共计填充了9.6Tb/s*2÷800G=24个端口,还有8个端口没有被占用。

1.3.3. L2层NVLink交换机

L2层交换机端口全部用满。由于L2层已经是结构的最上面一层,不难发现,把36个交换机全部端口容量加上,36*32*800G/8=115200GB,这个数字刚好是上述最底层256颗GH芯片产生的流量之和,这也侧面印证了,整个网络是一个无阻塞、Fat Tree的架构,同时L2层交换机端口全部用满,因此产生了32*36=1152个800G端口需求。

1.3.4. 总结:单颗芯片:800G光模块比例=1:9

我们下表整理了不同层级可能使用光模块的情况,我们假设芯片至L1层交换机大概率使用铜缆OSFP的形态去连接,其余L1层往北向传输,以及L2层往南向传输大概率都用800G光模块形态。

本章测算仅考虑NVLink网络,是因为Nvidia通常会采用NVLink和Infiniband的架构,两者的定位不同。其中,NVLink为特定系统或节点内部GPU与GPU连接的通信方式,速率非常高,目前通过NVLink 交换机可以扩展至最多256个GPU互联。Infiniband网络为通用高性能网络,既可以用在GPU之间的通信,也可以用在CPU之间的通信,可以快速扩展到数千至数万节点。虽然DGX GH200也配置了Infiniband的组网方式,英伟达自身要用最新发布的Spectrum-X 51.2T 64*800G的交换机将4个DGX GH200系统连接起来,但整体Nvlink的互联带宽和光模块端口数占大头,同时Infiniband组网结构未有细节,暂不考虑。

2.相关标的盈利预测

收藏
124.07W
我要评论
欢迎您发表有价值的评论,发布广告和不和谐的评论都将会被删除,您的账号将禁止评论。
发表评论
要闻
股市
关联话题
0 人关注
0 人关注