探秘全球最大GPU集群，20万GPU超算在路上

发布日期：2024-10-29 12:36 点击次数：203

（原标题：探秘全球最大GPU集群，20万GPU超算在路上）

如若您但愿不错时常碰面，迎接标星保藏哦~

来源：实质空洞自servethehome，谢谢。

今天，servethehome发布了 xAI Colossus 超等计较机之旅。关于那些外传过埃隆·马斯克的 xAI 在孟菲斯建造巨型 AI 超等计较机的东说念主来说，这即是阿谁集群。这个价值数十亿好意思元的 AI 集群领有 100,000 个 NVIDIA H100 GPU，不仅限制大，并且建造速率快。仅用 122 天，团队就建造了这个巨型集群。今天，咱们将带您参不雅大楼里面。

Colossus 的基本构建模块是 Supermicro 液冷机架。它由 8 台 4U 劳动器组成，每台劳动器配备 8 个 NVIDIA H100，每台机架统共有 64 个 GPU。8 台这么的 GPU 劳动器加上一台Supermicro 冷却液分配单位 (CDU)和联系硬件组成了一个 GPU 计较机架。

这些机架以八个为一组摆列，臆测 512 个 GPU，再加上收集，可在更大的系统内提供迷你集群。

在这里，xAI 使用的是 Supermicro 4U 通用 GPU 系统。出于几个原因，这些是当前阛阓上开端进的 AI 劳动器。一是液体冷却的进度。另一个是它们的可堤防性。

梗概一年前，咱们在丹佛的 Supercomputing 2023 (SC23)上初次看到了这些系统的原型。咱们无法在孟菲斯掀开这些系统之一，因为咱们在那儿时他们正忙于运行历练责任。其中一个例子是系统如何遗弃在托盘上，无需从机架上移除系统即可进行维修。1U 机架歧管有助于为每个系统引入冷液体比肩出热液体。快速断开安设不错快速将液体冷却安设移开，咱们客岁展示了如何单手拆卸和安装它们。一朝移除它们，就不错拉出托盘进行维修。

红运的是，咱们有这款劳动器原型的图片，因此咱们不错向您展示这些系统的里面结构。除了使用定制 Supermicro 液体冷却块的 8 GPU NVIDIA HGX 托盘外，CPU 托盘还展示了为什么这些是业内无与伦比的下一代缱绻。

上图 SC23 原型中的两个 x86 CPU 液冷块终点常见。出奇之处在于右侧。Supermicro 的主板集成了现在简直每个 HGX AI 劳动器中使用的四个 Broadcom PCIe 交换机，而不是将它们放在单独的主板上。Supermicro 随后有一个定制的液冷块来冷却这四个 PCIe 交换机。业内其他 AI 劳动器都是这么构建的，然后在风冷缱绻中添加液冷。Supermicro 的缱绻从新到尾都是液冷，并且一说念来自归拢家供应商。

这近似于汽车，有些汽车率先缱绻为汽油驱动，然后在底盘上安装 EV 能源系统，而 EV 则从一出手就缱绻为 EV。这款 Supermicro 系统属于后者，而其他 HGX H100 系统属于前者。自推出以来，咱们也曾亲自体验了大多数大众 HGX H100/H200 平台以及一些超大限制缱绻。毫无疑问，这款 Supermicro 系统与其他系统之间存在很大差距，包括咱们之前评测过的一些 Supermicro 其他不错接收液体或空气冷却的缱绻。

在机架的背面，咱们看到了用于勾通 GPU 和 CPU 的 400GbE 光纤，以及用于握住收集的铜线。这些 NIC 也位于我方的托盘上，无需拆卸机箱即可松驰更换，但它们位于机箱的背面。每台劳动器有四个电源，它们亦然热插拔的，并通过三相 PDU 供电。

在机架底部，咱们有 CDU 或冷却液分配单位。这些 CDU 就像巨型热交换器。在每个机架中，都有一个流体回路，为整个 GPU 劳动器提供流体。咱们在这里说的是流体，而不是水，因为时常这些回路需要凭证液体冷却块、管说念、歧管等中的材料调换流体。

每个 CDU 都有冗余泵和电源，因此如若其中一个发生故障，不错在现场更换，而无需关闭整个这个词机架。由于我之前曾更换过其中一个泵，是以我酌量在 Colossus 更换。自后我念念这可能不是最理智的念念法。

xAI 机架有好多事情要作念，但在拍摄 2023 年的作品时，咱们更清晰地拍摄了 Supermicro CDU。在这里，您不错看到设施水和机架歧管的输入和输出。您还不错看到每个 CDU 的热插拔冗余电源。

这是 Colossus 机架中的 CDU，被多样管子和电缆荫藏着。

在 Colossus 机架的两侧，咱们都有三相 PDU 以及机架歧管。每个前置 1U 歧管为 4U 通用 GPU 系统供电，而这些歧管又由勾通到 CDU 的机架歧管供电。整个这些组件都标有红色和蓝色配件。红运的是，这是一种老到的口头编码决策，红色代表暖色，蓝色代表环路的较冷部分。

您可能也曾从这些相片中崇尚到，这里仍然有电扇。许多液冷劳动器都使用电扇来冷却 DIMM、电源、低功耗基板握住戒指器、NIC 等组件。在 Colossus，每个机架都需要与数据大厅保抓中性冷却，以幸免安装大型空气处理器。劳动器中的电扇从机架前部抽取较冷的空气，并在劳动器后部排出空气。从那儿，空气通事后门热交换器被抽出。

天然后门热交换器听起来很花哨，但它们与汽车中的散热器相等相似。它们从机架中接纳废气，并将其通过带翅片的热交换器/散热器。就像劳动器雷同，该热交换器中也有液体流动，然后热量不错交换到设施水环路。空气通过开辟背面的电扇被吸入。与大多数汽车散热器不同，这些散热器有一个相等玄机的手段。在常常运行时，它们会亮起蓝灯。它们也不错亮起其他口头的光，比如如若出现需要维修的问题，则会亮起红灯。当我参不雅正在施工的现场时，我天然莫得掀开其中几个机架，但看到这些热交换器在掀开时跟着机架上线而转变口头，确切令东说念主赏心面子。

这些后门热交换器在数据大厅中还有另一个弥留的缱绻用途。它们不仅不错摒除 Supermicro 液冷 GPU 劳动器产生的多样热量，还不错摒除存储、CPU 计较集群和收集组件产生的热量。

这个急群众，存储也如实很原理。

在 AI 集群中，您时常会看到大型存储阵列。在这里，咱们运行着来自不同供应商的存储软件，但咱们看到的简直每个存储劳动器也都是 Supermicro 的。这并不奇怪。Supermicro 是许多存储供应商的 OEM。

咱们参不雅该设施时发现的一个相等原理的欣慰是，一些存储劳动器看起来与 CPU 计较劳动器相等相似。

岂论如何，在咱们的相片和视频中，您都会看到好多 2.5 英寸 NVMe 存储托架。咱们在 Substack 上先容过，大型 AI 集群已从基于磁盘的存储转向闪存，因为它不错从简无数电力，同期提供更高的性能和更高的密度。闪存每 PB 的资本可能更高，但在这种限制的集群中，闪存往往在 TCO 方面胜出。

在整个这些集群中，您时常会看到无数传统 CPU 计较节点。处理和数据操作任务在 CPU 上仍然运行邃密，而不是在 GPU 上。您可能还但愿让 GPU 运行 AI 历练或推理责任负载，而不是其他任务。

在这里，咱们看到了 1U 劳动器机架。每台劳动器的缱绻都旨在均衡计较密度和产生的热量。一个很好的例子是，咱们不错看到前边有 NVMe 存储托架的橙色标签，但面板的约三分之一颠倒用于将冷空气吸入系统。

这些 1U 计较劳动器不错通过电扇冷却，然后后门热交换器不错去除热量并将其与设施水环路交换。由于数据中心接收后门热交换器缱绻，xAI 不错处理液冷开辟和风冷开辟。

收集是该集群其中最眩惑东说念主的部分之一。如若您的计较机使用以太网电缆，那么它与此处的收集使用疏导的基础期间。不同之处在于，每个光纤勾通的速率是 400GbE，比咱们在其他地点看到的常见 1GbE 收集快 400 倍。每个系统还有 9 个这么的连络，这意味着咱们每个 GPU 计较劳动器的带宽约为 3.6Tbps。

GPU 的 RDMA 收集占了该带宽的大部分。每个 GPU 都有我方的 NIC。在这里，xAI 使用 NVIDIA BlueField-3 SuperNIC 和 Spectrum-X 收集。NVIDIA 在其收集堆栈中有一些特殊的功能，可匡助确保正确的数据到达正确的位置，从而绕过集群中的瓶颈。

这是一件大事。许多超等计较机收集使用 InfiniBand 或其他期间，但这是以太网。以太网意味着它不错膨胀。在 STH 上阅读本文的每个东说念主都会在某个时候通过以太网传输页面。以太网是互联网的主干。因此，它是一种可膨胀性极强的期间。这些广宽的 AI 集群正在膨胀到一些更奇特的期间在限制方面尚未涉及的进度。这是 xAI 团队的一次相等果敢的举动。

除了 GPU RDMA 收集以外，CPU 还不错得回 400GbE 勾通，它使用透顶不同的交换结构。xAI 为其 GPU 运行一个收集，为集群的其余部分运行一个收集，这是高性能计较集群中非经常见的缱绻点。

为了让人人了解 400GbE 的速率有多快，它比 2021 年头顶级 Intel Xeon 劳动器处理器在其整个 PCIe 通说念上处理的勾通数还要多。这里每台劳动器使用了九次这种级别的收集。

整个这些收集意味着咱们领有无数的光纤清晰。每条光纤清晰都经由切割和端接，长度正确，并贴上标签。

除了高速集群收集以外，还有低速收集，用于任何此类集群的多样握住接口和环境开辟。

参不雅该设施时，不错显着看出液冷收集交换机是急需的。咱们最近评测了一款 64 端口 800GbE 交换机，与许多 AI 集群中使用的交换机属于 51.2T 级别。业界需要搞定的问题不仅是冷却交换机芯片，还有光学器件，因为当代交换机的功耗可能比交换机芯片高得多。也许像这么的大型安装可能会推动行业转向共封装光学器件，这么交换机的冷却就不错跟班计较到液体冷却。咱们之前也曾看过液冷共封装光学交换机演示，是以但愿此次安装能匡助它们在异日从原型走向坐蓐。

由于咱们领有液冷式 AI 劳动器机架，因此电源和设施用水关于安装至关弥留。底下是巨大的水管。有一组冷水和滚水。冷水被带入设施并在每个机架的 CDU 中轮回。热量从 GPU 和后门热交换器回路传递到 CDU 的设施水回路。然后，滚水被带到设施外的冷却器中。天然，冷却器不是那种不错制作冰块的冷却器。违抗，磋议仅仅将水温镌汰到迷漫低，以便冷却到足以再次通过设施轮回。

电力引东说念主入胜。当咱们在孟菲斯成立该系统时，咱们看到团队正在将巨大的电力电缆移到位。

在设施外面，咱们看到了装有 Tesla Megapacks 的集装箱。这是团队在构建这个巨型集群时确切学到的重点之一。AI 劳动器并非 24×7 全天候以 100% 额定功耗运行。违抗，它们的功耗有好多岑岭和低谷。由于现场有如斯多的 GPU，跟着责任负载革新到 GPU，然后整理效果并分拨新功课，功耗会波动。团队发现，毫秒级的功率峰值和着落也曾迷漫让东说念主焦躁，因此将 Tesla Megapacks 放在中间以匡助缓冲这些功率峰值有助于使整个这个词安装愈加可靠。

天然，该设施才刚刚起步。咱们参不雅时，四个 25,000 GPU 数据大厅的开动集群已启动并运行，可容纳约 100,000 个 GPU，但集群膨胀责任正在飞快股东。

这似乎是一件确切令东说念主敬畏的事情的出手。

在作念这件事时，我学到的一个短处主题是，xAI 团队需要更多时期来处理供应商之间的细小不对。竣事这一磋议的唯独步调是，无数大众皆心合力构建系统，并昔日所未有的速率构建一个巨大的 AI 集群

与此同期，英伟达发布了一个新闻稿，骄横xAI团队正在打造领有20万GPU的超算集群。

NVIDIA 以太网收集加速由 xAI 打造的全球最大 AI 超等计较机

NVIDIA 今天文书，位于田纳西州孟菲斯的 xAI 的 Colossus 超等计较机集群由 100,000 个 NVIDIA Hopper GPU 组成，该集群通过使用 NVIDIA Spectrum-X ™ 以太网收集平台竣事了这一大限制，该平台旨在为使用基于标准的以太网的多佃农、超大限制 AI 工场提供非凡的性能，用于其良友径直内存考核 (RDMA) 收集。

Colossus 是宇宙上最大的东说念主工智能超等计较机，用于历练 xAI 的 Grok 系列大型谈话模子，并为 X Premium 用户提供聊天机器东说念主功能。xAI 正在将 Colossus 的限制扩大一倍，统共配备 200,000 个NVIDIA Hopper GPU。

xAI 和 NVIDIA 仅用 122 天就建造了配套设施和开端进的超等计较机，而这种限制的系统时常需要数月以致数年的时期。从第一个机架滚到大地到历练出手，一共花了 19 天。

在历练超大型 Grok 模子时，Colossus 竣事了前所未有的收集性能。在收聚合构的整个三个层级中，系统均未出现因流量冲突导致的愚弄门径延长镌汰或数据包丢失。借助 Spectrum-X 拥塞戒指，它保抓了 95% 的数据糊涂量。

标准以太网无法大限制竣事这种级别的性能，因为标准以太网会产生数千次流冲突，而数据糊涂量却仅为 60%。

NVIDIA 收集高档副总裁 Gilad Shainer 暗意：“AI 正变得至关弥留，需要晋升性能、安全性、可膨胀性和资本效益。NVIDIA Spectrum-X 以太网收集平台旨在为 xAI 等翻新者提供更快的 AI 责任负载处理、分析和实施速率，从而加速 AI 搞定决策的开发、部署和上市时期。”

“Colossus 是宇宙上最苍劲的历练系统，”埃隆·马斯克在X上暗意。“xAI 团队、NVIDIA 以及咱们的广宽互助伙伴/供应商都作念得很好。”

xAI 发言东说念主暗意：“xAI 也曾打造出全球最大、性能最强的超等计较机。NVIDIA 的 Hopper GPU 和 Spectrum-X 使咱们大要大限制冲突 AI 模子历练的界限，打造基于以太网标准的超加速、优化 AI 工场。”

Spectrum-X 平台的中枢是Spectrum SN5600 以太网交换机，它缓助高达 800Gb/s 的端口速率，并基于 Spectrum-4 交换机 ASIC。xAI 选用将 Spectrum-X SN5600 交换机与NVIDIA BlueField-3 ® SuperNIC配对，以竣事前所未有的性能。

Spectrum-X AI 以太网收集具有先进的功能，可提供高效、可膨胀的带宽，具有低延长和短尾延长，而这些功能昔日是 InfiniBand 专有的。这些功能包括接收 NVIDIA Direct Data Placement 期间的自相宜路由、拥塞戒指以及增强的 AI 结构可视性和性能进犯 - 这些都是多佃农生成 AI 云和大型企业环境的短处条目。

https://www.servethehome.com/inside-100000-nvidia-gpu-xai-colossus-cluster-supermicro-helped-build-for-elon-musk/4/

https://nvidianews.nvidia.com/news/spectrum-x-ethernet-networking-xai-colossus

半导体极品公众号推选

专注半导体边界更多原创实质

包涵全球半导体产业动向与趋势

*免责声明：本文由作家原创。著述实质系作家个东说念主不雅点，半导体行业不雅察转载仅为了传达一种不同的不雅点，不代表半导体行业不雅察对该不雅点赞同或缓助，如若有任何异议，迎接磋议半导体行业不雅察。

今天是《半导体行业不雅察》为您共享的第3930实质，迎接包涵。

『半导体第一垂直媒体』

及时专科原创深度

公众号ID：icbank

可爱咱们的实质就点“在看”共享给小伙伴哦

fund

让建站和SEO变得简单

探秘全球最大GPU集群，20万GPU超算在路上

热点资讯

相关资讯