做大模型时代的“卖铲人”：腾讯发布超强算力集群国内首发搭载英伟达H800

原创

2023-04-14 06:54 星期五

科创板日报记者张洋洋

该集群采用腾讯云星星海自研服务器，搭载英伟达最新代次H800 GPU，服务器之间采用业界最高的3.2T超高互联带宽，为大模型训练、自动驾驶、科学计算等提供高性能、高带宽和低延迟的集群算力。

《科创板日报》4月14日讯（记者张洋洋） 国内大模型训练面临的算力困局有望得到纾缓。面向大模型训练，4月14日，腾讯云正式发布新一代HCC（High-Performance Computing Cluster）高性能计算集群。

该集群采用腾讯云星星海自研服务器，国内首发搭载英伟达最新代次H800 GPU，服务器之间采用业界最高的3.2T超高互联带宽，为大模型训练、自动驾驶、科学计算等提供高性能、高带宽和低延迟的集群算力。

▍开启云上大模型训练模式

当下，大模型训练如火如荼，且参数量级已进入万亿时代，单体服务器算力有限，随着算力需求的增长，因此需要将大量服务器通过高性能网络相连，打造大规模算力集群。

集群的算力要求，意味着用于采购硬件的资金投入是指数级增长，这给不少企业带来了巨大的现金流压力。自己采购GPU，面临着成本和供应链问题，且峰谷问题较为明显。

例如，本地的物理CPU/GPU资源配比是固定绑定在一起的，扩展性比较差。有时CPU跑满、GPU空闲（或相反）。造成效率低下和资源浪费。在云上，这些资源可以池化随取随用，按需按量取用。

面对业务架构多样、用量无法准确预估、模型及环境部署难度大等问题，腾讯认为，云上算力能帮助企业完成随机突发的算力需求。

▍先进芯片≠先进算力

目前大热的人工智能大模型，其训练需要海量数据和强大的算力来支撑训练和推理过程，其中数据主要由服务器和光模块存储、运输，算力支撑则依赖各类芯片。

算力需求陡增，业界普遍认为，高性能芯片的短缺是限制国内大模型行业发展的重要因素。

但在腾讯看来，用上了先进芯片并不代表就拥有了先进算力，原因在于高性能计算存在“木桶效应”，一旦计算、存储、网络任一环节出现瓶颈，就会导致运算速度严重下降。

以算力对网络的要求为例：目前，GPU并行是大模型训练的必备技术，不同于传统并行以加快计算速度为目的，大模型的并行计算往往还要考虑怎样将庞大的参数有机地分布到多张GPU卡中，并保持不同GPU卡之间有效的通信，整体配合完成大模型的训练部署。

即使是目前业界已有的GPU分布式训练方案，也严重受制于服务器之间的通信、拓扑、模型并行、流水并行等底层问题。如果只有分布式训练框架，甚至都无法正常启动训练过程。这也是为什么当时GPT-3已经发布一年，却只有少数企业可以复现GPT-3。

换句话而言，先进算力的背后，是先进芯片、先进网络、先进存储等一系列的支撑，缺一不可。

▍首发搭载英伟达H800

腾讯新一代HCC集群搭载了英伟达最新代的H800芯片，这是H800在国内首发。不过，腾讯暂未透露采购了多少H800。

H800是英伟达新代次处理器，基于Hopper架构，对跑深度推荐系统、大型AI语言模型、基因组学、复杂数字孪生等任务的效率提升显著。

英伟达芯片参数对比

网络层面，腾讯自研的星脉网络，为新一代集群带来了3.2T的超高通信带宽。实测结果显示，搭载同样的GPU卡，3.2T星脉网络相较前代网络，能让集群整体算力提升20%，使得超大算力集群仍然能保持优秀的通信开销比和吞吐性能。并提供单集群高达十万卡级别的组网规模，支持更大规模的大模型训练及推理。

存储层面，腾讯云自研的文件存储、对象存储架构，具备TB级吞吐能力和千万级IOPS，充分满足大模型训练的大数据量存储要求。

在自研芯片方面，腾讯已经量产了用于AI推理加速的紫霄芯片，并已在语音转写、OCR等业务场景使用，用于视频转码的沧海芯片，已经在云游戏、直点播等场景中规模落地。

阅163.83W

我要评论

反馈意见

图片

欢迎您发表有价值的评论，发布广告和不和谐的评论都将会被删除，您的账号将禁止评论。

发表评论

一路走来2年前 · 安徽

景嘉微

(1)

回复0条回复

晖啦2年前 · 广东

中科曙光

(0)

回复0条回复

丁一2年前 · 广东

谁代工的服务器：闻泰科技还是

(0)

回复0条回复

cls-13317462年前 · 广东

腾讯买不了

(0)

回复0条回复

186******352年前 · 湖南

论算力还得是华为

(0)

回复0条回复

唐纳德2年前 · 广东

凭啥用你的铲子啊，真拿自己当回事儿🙂

(0)

回复0条回复

要闻

股市

06-24 03:15 星期二

特斯拉Robotaxi存技术缺陷？试运营首日状况频出

06-24 01:34 星期二

个人养老金投资收益部分需按3%纳税吗？人社部回应

06-24 03:07 星期二

Robotaxi涨势仅昙花一现？瑞银看空特斯拉：这一利好早已计入股价！

06-24 02:58 星期二

四年前景象重现？LME铜遭遇历史性挤仓库存急速枯竭

06-24 00:47 星期二

以伊战争是否会引发全球经济衰退？华尔街这么看……

06-24 02:01 星期二

沃顿商学院教授：美股可能会再度上升，只要以伊冲突不再升级！

06-24 02:32 星期二

特斯拉Robotaxi落地点燃A股智驾板块 ROI瓶颈下国内商业化何时爆发？

06-24 02:09 星期二

热穹顶盖住美东！费城波士顿等多个城市气温或创十多年来最高

06-24 01:35 星期二

亚马逊拟未来三年在英国投资540亿美元将创造数千就业岗位

06-24 01:00 星期二

中东警报暂时解除？华尔街分析师：油价下滑将利好全球股市

关联话题

5.25W 人关注

1W 人关注

1.37W 人关注

8780 人关注

首页

电报

话题

盯盘

VIP

FM

投研

下载

头条

A股

港股

环球

公司

券商

基金·ETF

地产

金融

汽车

科创

品见

英伟达芯片参数对比