Nvidia a récemment dévoilé son nouveau supercalculateur dédié à l’intelligence artificielle, le Nvidia DGX SuperPOD, alimenté par son nouveau Nvidia GB200 Grace Blackwell Superchip. Ce système est conçu pour traiter des modèles à un trillion de paramètres avec une disponibilité constante pour des charges de travail d’entraînement et d’inférence d’IA de génération à grande échelle.
Le nouveau supercalculateur présente une architecture à l’échelle du rack hautement efficace et refroidie par liquide. Il offre 11,5 exaflops de supercalcul en IA à la précision FP4 et 240 téraoctets de mémoire rapide, extensible avec des racks supplémentaires.
Le nouveau GB200 SuperChip
Le Nvidia GB200 Superchip est l’accélérateur d’IA le plus récent de Nvidia, spécifiquement conçu pour répondre aux exigences strictes des charges de travail d’entraînement et d’inférence d’IA de génération impliquant des modèles à un trillion de paramètres. Ce nouveau chip est un élément crucial des nouveaux systèmes DGX GB200 de Nvidia et est indispensable au nouveau Nvidia DGX SuperPOD.
Le Superchip GB200 contient 36 CPU Nvidia Arm-architecture Grace et 72 GPU Nvidia Blackwell. Cette configuration hybride augmente considérablement les performances, permettant le traitement de charges de travail d’IA complexes avec une vitesse et une efficacité accrues.
Connectés via les interconnexions Nvidia NVLink de cinquième génération, les Superchips GB200 dans un système DGX GB200 fonctionnent de manière cohésive comme un supercalculateur unique. Cette technologie d’interconnexion permet un transfert de données à haute vitesse entre les CPU et les GPU, facilitant la communication et le traitement des données essentiels pour gérer des modèles d’IA à grande échelle.
Nvidia affirme qu’une des caractéristiques remarquables du GB200 Superchip est sa capacité à offrir jusqu’à 30 fois les performances du GPU Tensor Core H100 de Nvidia pour les tâches d’inférence de grands modèles de langage. Cette amélioration notable repousse les limites du supercalcul en IA et permet le développement et le déploiement plus efficaces de modèles d’IA plus sophistiqués.
Le nouveau DGX SuperPOD GB200
Le DGX SuperPOD est le supercalculateur d’IA de nouvelle génération de Nvidia conçu pour aborder les charges de travail d’IA les plus exigeantes, y compris les tâches d’entraînement et d’inférence pour les modèles d’IA génératifs avec des structures à un trillion de paramètres.
Équipé de systèmes Nvidia DGX GB200, le SuperPOD offre une capacité de supercalcul en IA de 11,5 exaFLOPS à la précision FP4 aux côtés de 240 téraoctets de mémoire rapide. Cette immense puissance de calcul peut être étendue en ajoutant plus de racks, assurant que le système peut répondre aux demandes croissantes en IA.
Chaque système DGX GB200 au sein du SuperPOD dispose de 36 Superchips Nvidia GB200. Ces Superchips sont composés de CPU Nvidia Grace et de GPU Nvidia Blackwell, tous connectés via la cinquième génération de Nvidia NVLink.
Le SuperPOD peut être étendu à des dizaines de milliers de Superchips GB200 connectés via NVIDIA Quantum InfiniBand, offrant un espace mémoire partagé massif pour des modèles d’IA de nouvelle génération.
L’architecture inclut des DPU Nvidia BlueField-3 et prend en charge la mise en réseau Quantum-X800 d’InfiniBand de Nvidia. De plus, elle utilise la technologie SHARP de quatrième génération de Nvidia pour une performance de calcul en réseau accrue.
L’IA est une opération gourmande en énergie, et Nvidia aborde cela avec une nouvelle architecture hautement efficace et refroidie par liquide qui améliore les performances tout en minimisant les contraintes thermiques à travers le système. Cette conception permet des opérations plus durables et économes en énergie, même sous des charges de calcul intenses.
Le DGX SuperPOD de Nvidia est un supercalculateur d’IA complet à l’échelle d’un centre de données qui s’intègre à des solutions de stockage hautes performances. Il dispose de capacités de gestion prédictive intelligentes pour surveiller et optimiser les performances du système afin d’assurer une disponibilité constante et une efficacité.
Le Nvidia DGX SuperPOD avec les systèmes DGX GB200 et DGX B200 devrait être disponible plus tard cette année via les partenaires mondiaux de NVIDIA.
Adoption du Cloud
Oracle a annoncé qu’il intègre la dernière plateforme Nvidia dans ses services OCI Supercluster et OCI Compute, en annonçant que son OCI Compute adoptera le NVIDIA GB200 Grace Blackwell Superchip et le GPU NVIDIA Blackwell B200 Tensor Core.
Au-delà de la nouvelle plateforme, la collaboration entre Oracle et Nvidia s’étend au déploiement de Nvidia DGX Cloud sur OCI, Oracle introduisant ses nouvelles instances basées sur GB200 NVL72 pour un entraînement et une inférence efficaces. Cette expansion verra plus de 20 000 accélérateurs GB200 et une technologie de mise en réseau avancée déployée, créant une infrastructure cloud hautement évolutive et performante pour gérer efficacement les LLMs à un trillion de paramètres.
Google prévoit également d’intégrer les systèmes Nvidia GB200 NVL72 dans son infrastructure cloud. Google a déclaré qu’il rendra les systèmes disponibles via DGX Cloud, étendant son offre DGX Cloud actuelle basée sur Nvidia H100.
Enfin, Microsoft et AWS ont chacun annoncé un prochain support pour la nouvelle plateforme, bien qu’ils n’aient pas fourni de détails.
Il est notable que chacun des quatre principaux fournisseurs de cloud public a annoncé le support des nouveaux accélérateurs lors du lancement de Nvidia à la GTC, bien qu’AWS, Azure et Google aient chacun développé en interne des accélérateurs pour l’inférence et l’entraînement.
Analyse
Il est clair que Nvidia repousse les limites de ce qui est possible en matière d’intelligence artificielle, maintenant son rôle de leader dans la révolution de l’IA. Le nouveau DGX SuperPOD, alimenté par les GB200 Grace Blackwell Superchips, marque une étape significative dans l’évolution du supercalcul en IA.
Les caractéristiques impressionnantes du SuperPOD, y compris sa capacité de supercalcul en IA de 11,5 exaFLOPS à la précision FP4 et son architecture de rack évolutive refroidie par liquide, démontrent clairement la capacité de Nvidia à fournir des solutions hautes performances et énergétiquement efficientes pour des charges de travail d’IA complexes.
Ce niveau de puissance de calcul et d’efficacité est crucial pour l’avenir de l’IA, permettant le traitement de modèles à un trillion de paramètres et établissant de nouvelles normes pour la recherche et le développement d’applications d’IA.
Avec le DGX SuperPOD, NVIDIA ne vend pas seulement un produit, il fournit une technologie fondamentale qui pourrait accélérer l’innovation en IA à travers les secteurs, en en faisant un acteur clé dans l’espace de l’entraînement en IA. Alors que Nvidia fait face à une concurrence croissante sur les marchés de l’entraînement et de l’inférence, il se distingue par sa capacité à offrir cette classe de supercalcul en IA.
Nvidia continue à exécuter de manière impeccab…