Google Cloud hat seine A4X Virtual Machines (VMs) vorgestellt, die auf dem NVIDIA GB200 NVL72 basieren. Die neuen VMs sind speziell für das Training und den Betrieb von sehr großen KI-Workloads konzipiert, insbesondere für solche, die Reasoning-Modelle, große Sprachmodelle (LLMs) mit langen Kontextfenstern und Szenarien erfordern, die massive Parallelität benötigen.
Google hebt in seinem Blogbeitrag hervor, der erste und einzige Cloud-Anbieter zu sein, der VMs anbietet, die sowohl mit B200- als auch mit GB200-GPUs laufen. Die A4X-VMs sind Teil der AI Hypercomputer Supercomputing-Architektur von Google.> Kunden können große Cluster von A4X-VMs mit Rechen-, Speicher- und Netzwerkressourcen als eine Einheit bereitstellen und verwalten, was die Komplexität bei verteilten Workloads reduziert.
Die A4X-VMs sind nativ in Google Cloud-Produkte und -Dienste integriert. Sie bieten eine verbesserte Trainingsleistung und niedrige Latenzzeiten.
Clustering und Leistung
Der NVIDIA GB200 NVL72 besteht aus 72 NVIDIA Blackwell GPUs und 36 Arm©-basierten NVIDIA Grace CPUs, die über die fünfte Generation von NVIDIA NVLink Chip-to-Chip (C2C)-Verbindungen zusammenhängen. Die 72 Blackwell-GPUs funktionieren als eine einzige, vereinheitlichte Recheneinheit mit gemeinsamem Speicher und hoher Bandbreite. Das ermöglicht beispielsweise reaktionsschnelle Antworten für multimodales Reasoning bei gleichzeitigen Inferenzanforderungen. Sie ermöglichen effizientes Checkpointing sowie das Auslagern und Rematerialisieren des Modell- und Optimierungszustands, was für das Training und den Betrieb der größten Modelle erforderlich ist.
Jedes GB200 NVL72-System bietet mehr als ein Exaflop Trainingsleistung. Die A4X-VMs ermöglichen die Bereitstellung von Modellen über Zehntausende von Blackwell-GPUs hinweg, indem sie die neuesten Sharding- und Pipelining-Strategien zur Maximierung der GPU-Auslastung nutzen. Im Vergleich zu den A3-VMs, die von NVIDIA H100-GPUs angetrieben werden, bieten die A4X-VMs eine vierfache Steigerung der LLM-Trainingsleistung.
Das Jupiter-Netzwerk von Google ermöglicht die Kombination von NVL72-Domänen. Das High-Performance-Networking von Google Cloud, das auf RDMA over Converged Ethernet (RoCE) basiert, kombiniert NVL72-Racks zu einzelnen, rail-aligned und non-blocking Clustern.
Ihr Wartungsspezialist im DataCenter
Durch Jahrzehnte lange Erfahrung wissen wir worauf es in Ihrem Data Center ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.
Die A4X-VMs sind mit dem Titanium ML-Netzwerkadapter ausgestattet, der auf NVIDIA ConnectX-7-Netzwerkschnittstellenkarten (NICs) basiert. Dieser Adapter liefert 28,8 Tbit/s (72 * 400 Gbit/s) nicht blockierenden GPU-zu-GPU-Traffic mit RoCE.
Die A4X-Architektur mit ihrer 72-GPU NVLink-Domäne ist speziell für Inferenz mit niedriger Latenz ausgelegt, insbesondere für Reasoning-Modelle, die Chain-of-Thought-Techniken verwenden. Die gemeinsame Nutzung von Speicher und Workload über alle 72 GPUs hinweg (einschließlich des KVCache für Long-Context-Modelle) sorgt für niedrige Latenzzeiten, während die große NVLink-Domäne eine bessere Batch-Size-Skalierung und niedrigere Gesamtbetriebskosten ermöglicht, sodass mehr gleichzeitige Benutzeranfragen bedient werden können.
Die A4X-VMs werden durch eine neue Generation von Flüssigkeitskühlung auf Temperatur gehalten. Details zur Kühltechnologie nennt Google allerdings nicht. Google weist lediglich darauf hin, dass die Weiterentwicklung auf jahrelanger Betriebserfahrung basiere.
Ihr Wartungsspezialist für alle großen Hardware Hersteller
Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.
Weitere Artikel
Google Cloud stellt A4X VMs auf Basis von NVIDIA GB200 NVL72 vor
Google Cloud hat seine A4X Virtual Machines (VMs) vorgestellt, die auf dem NVIDIA GB200 NVL72 basieren. Die neuen VMs sind
Mehr Strom für Rechenzentren: Kohlekraftwerke in Mississippi und Georgia sollen länger laufen
Vor allem aufgrund des wachsenden Stromverbrauchs durch Rechenzentren sollen drei Kohlekraftwerke in den US-Bundesstaaten Mississippi und Georgia länger laufen.
#9 KI und Tech To Go – Der Praxis-Pitch
KI-Wachstum und Nachhaltigkeit: Zwischen Greenwashing, Scaling Laws und praktische Anwendungsbereiche in Unternehmen Von Scaling Laws und Greenwashing zu