NVIDIA annonce l’acquisition de Run:ai, une startup israélienne spécialisée dans l’orchestration de GPU basée sur Kubernetes. Alors que le prix n’est pas divulgué, des rapports indiquent que la société est valorisée entre 700 millions et 1 milliard de dollars.
L’acquisition de Run:ai met en lumière l’importance croissante de Kubernetes dans l’ère de l’IA générative. Cela fait de Kubernetes le standard de facto pour la gestion de l’infrastructure informatique accélérée par GPU.
Run:ai est une startup d’infrastructure d’IA basée à Tel Aviv, en Israël, fondée en 2018 par Omri Geller (PDG) et le Dr Ronen Dar (CTO). Ils ont créé une plateforme d’orchestration et de virtualisation adaptée aux besoins spécifiques des charges de travail d’IA s’exécutant sur des GPU, permettant de regrouper et de partager efficacement les ressources. Tiger Global Management et Insight Partners ont dirigé une levée de fonds de 75 millions de dollars dans le cadre d’une série C en mars 2022, portant le financement total de l’entreprise à 118 millions de dollars.
Le Problème Résolu par Run:ai
Contrairement aux CPU, les GPU ne peuvent pas être facilement virtualisés pour que plusieurs charges de travail puissent les utiliser simultanément. Les hyperviseurs tels que VMware vSphere et KVM permettaient l’émulation de plusieurs CPU virtuels à partir d’un seul processeur physique, donnant aux charges de travail l’illusion qu’elles s’exécutaient sur un CPU dédié. En ce qui concerne les GPU, ils ne peuvent pas être effectivement partagés entre plusieurs tâches d’apprentissage automatique, telles que l’entraînement et l’inférence. Par exemple, les chercheurs ne peuvent pas utiliser la moitié d’un GPU pour l’entraînement et l’expérimentation tout en utilisant l’autre moitié pour une autre tâche d’apprentissage automatique. De même, ils ne peuvent pas regrouper plusieurs GPU pour optimiser l’utilisation des ressources disponibles. Cela pose un énorme défi aux entreprises exécutant des charges de travail basées sur GPU dans le cloud ou sur site.
Le problème décrit ci-dessus s’étend aux conteneurs et à Kubernetes. Si un conteneur nécessite un GPU, il consommera efficacement 100 % du GPU s’il n’est pas utilisé à son plein potentiel. La pénurie de puces d’IA et de GPU aggrave le problème.
Run:ai a vu une opportunité de résoudre efficacement ce problème. Ils ont utilisé les primitives de Kubernetes et les mécanismes de planification éprouvés pour créer une couche qui permet aux entreprises d’utiliser seulement une fraction du GPU disponible ou de regrouper plusieurs GPU. Cela a permis une meilleure utilisation des GPU, offrant de meilleurs résultats économiques.
Voici 5 fonctionnalités clés de la plateforme de Run:ai :
– Logiciel de virtualisation et d’orchestration adapté aux charges de travail d’IA s’exécutant sur des GPU et d’autres chipsets. Cela permet un regroupement et un partage efficaces des ressources de calcul GPU.
– Intégration avec Kubernetes pour l’orchestration de conteneurs. La plateforme de Run:ai est construite sur Kubernetes et prend en charge toutes les variantes de Kubernetes. Elle s’intègre également avec des outils et des frameworks d’IA tiers.
– Interface centralisée pour la gestion de l’infrastructure de calcul partagée. Les utilisateurs peuvent gérer les clusters, regrouper les GPU et allouer la puissance de calcul pour diverses tâches via l’interface de Run:ai.
– Planification dynamique, regroupement de GPU et fractionnement de GPU pour une efficacité maximale. Le logiciel de Run:ai permet de diviser les GPU en fractions et de les allouer dynamiquement pour optimiser l’utilisation.
– Intégration avec la pile d’IA de Nvidia incluant les systèmes DGX, Base Command, les conteneurs NGC et le logiciel AI Enterprise. Run:ai s’est associé étroitement avec Nvidia pour offrir une solution complète.
Il est important de noter que Run:ai n’est pas une solution open source, même si elle est basée sur Kubernetes. Elle fournit aux clients un logiciel propriétaire qui doit être déployé dans leurs clusters Kubernetes avec une application de gestion basée sur le SaaS.