Cerebras présente le processeur WSE-3 et le serveur CS-3

Cerebras, un innovateur dans le domaine de la technologie des puces et des systèmes, a fait plusieurs annonces clés la semaine dernière : la prochaine génération de son processeur d’intelligence artificielle à l’échelle des plaquettes (WSE-3) et de son serveur (CS-3), le prochain supercalculateur Cerebras Galaxy Condor 3 (CG-3) basé sur le CS-3, ainsi qu’un partenariat avec Qualcomm pour soutenir le traitement de l’inférence.

Poursuivant le momentum

L’année écoulée a été significative pour Cerebras. Avec un partenariat avec G42, une société de développement d’IA basée à Abou Dhabi, Cerebras est passé d’un simple fournisseur de systèmes à un fournisseur de services avec un projet de construction de trois centres de supercalcul en 2024, plus tard étendu à neuf, basés sur ses plateformes d’IA. Cela a marqué une transition d’un fournisseur de technologie de niche à un concurrent dans le domaine de la formation en IA. Ce changement est important car la plupart des start-ups en IA avaient un modèle économique simple : développer une propriété intellectuelle (PI) puis vendre l’entreprise à un plus grand fabricant de semi-conducteurs, un OEM de systèmes ou un hyperscaler pour une grosse somme d’argent, c’est pourquoi la plupart des premières start-ups en IA ont échoué. Peu de start-ups en semi-conducteurs récentes ont un plan d’affaires pour être une entité pérenne. Les deux qui me viennent à l’esprit sont Ampere et Cerebras, qui sont tous deux devenus des succès dans le domaine des semi-conducteurs.

Le processeur de la 3e génération de Cerebras (WSE-3)

Cerebras possède une expertise en ingénierie significative qui le différencie de la concurrence. À chaque nouvelle génération de produit, l’entreprise a surmonté des défis d’ingénierie majeurs. Tout d’abord, avec la capacité de concevoir, fabriquer et exploiter une puce unique de la taille d’une galette de silicium de 200 mm (12 pouces), surnommée “moteur à l’échelle des plaquettes” ou WSE, pour pouvoir former certains des plus grands modèles de langage au monde de manière efficace et en temps opportun avec une grande précision. Le succès commercial précoce est venu de la collaboration avec des entités gouvernementales et commerciales possédant de grands ensembles de données et des défis uniques, tels que la recherche pharmaceutique. La société compte désormais un large éventail de clients dans les secteurs de la santé, de l’énergie et d’autres segments industriels, ainsi que des hyperscalers.

Spécifications des supercalculateurs d’IA Cerebras Condor Galaxy 1 & 2

Le deuxième défi majeur en ingénierie était la capacité à mettre en œuvre la plateforme sur plusieurs systèmes pour une solution à l’échelle d’un centre de données. Cerebras a lancé le CS-2 en 2022. En partenariat avec G42, Cerebras a construit ses deux premiers supercalculateurs en 2023, le Condor Galaxy 1 (CG-1) et le Condor Galaxy 2 (CG-2) en Californie. Les deux ont atteint quatre exaFLOPS de performance de calcul AI avec une précision des données en FP16 à seulement 2,5 MW de puissance, une fraction d’un centre de données traditionnel.

Le supercalculateur d’IA Cerebras Condor Galaxy 2 (CG-2)

Cerebras continue cette dynamique en ingénierie et sur le marché avec sa troisième génération de solutions. Cela commence avec la troisième génération du moteur à l’échelle des plaquettes, le WSE-3, qui établit une fois de plus un record pour le nombre de transistors dans une conception de puce unique. Construit sur le processus 5 nm de TSMC, le WSE-3 comporte quatre billions de transistors, comprenant 900 000 cœurs de traitement optimisés pour l’algèbre linéaire creuse et 44 Go de mémoire embarquée. Le résultat est 125 pétaFLOPS (1015 ou un millier de millions de millions d’opérations en virgule flottante par seconde) de performance AI. Par conséquent, il n’y a vraiment aucune comparaison équitable avec toute autre solution en semi-conducteurs en termes de taille ou de performance d’une seule puce. Cependant, Cerebras ne vend pas de puces, elle vend de grands serveurs complexes. Le nouveau serveur est appelé le CS-3, qui offre un châssis conçu pour. Selon la société, le CS-3 offre deux fois la performance pour la même puissance et le même prix que la génération précédente, le CS-2. Par cette mesure, la loi de Moore est bel et bien vivante ! De plus, jusqu’à 2048 CS-3 peuvent être regroupés, soit une augmentation de 10 fois par rapport au CS-2, pour un total de 256 exaFLOPS (1018 FLOPS) de performance AI.

Comparaison des supercalculateurs d’IA Cerebras CS-2 et CS-3

Un nouveau niveau de formation en IA

Ce niveau de performance absurde permet de former en toute efficacité des modèles de langage très volumineux pour une IA générative. Cela est particulièrement adapté aux modèles de un trillion de paramètres et plus. Selon Cerebras, un seul CS-3 peut former un modèle entier de un trillion de paramètres en réduisant de manière exponentielle le temps et le code nécessaires, ce qui se traduit par 10x plus de FLOPS par dollar et 3,6x plus de performance de calcul par watt que certains des plateformes de formation d’IA actuellement déployées. À noter que Tirias Research ne peut pas vérifier ces chiffres.

Outre la plateforme CS-3, Cerebras a annoncé que la construction du supercalculateur Condor Galaxy 3 (CG-3) est en cours à Dallas, au Texas. Le CG-3 offrira 8 exaFLOPS de performance AI à partir du 2ème trimestre 2024. C’est le troisième d’un plan visant désormais à développer neuf centres de données de supercalcul d’ici la fin de 2024, un plan de développement très ambitieux.

Passer de la formation à l’inférence

Pour offrir aux clients une solution permettant de passer de la formation de modèles d’IA traditionnels et génératifs complexes à leur traitement d’inférence de manière efficace, Cerebras s’est associé à Qualcomm. Qualcomm a annoncé le Cloud AI 100 pour le traitement de l’inférence en IA en 2020, et le Cloud AI 100 Ultra optimisé pour le traitement d’inférence de l’IA générative en novembre 2023. La plateforme Cloud AI 100 tire parti de l’expertise de Qualcomm en traitement écoénergétique spécifiquement pour l’IA et les modèles de réseaux neuronaux génératifs en IA. Cependant, grâce à l’utilisation de la dispersion, du décodage spéculatif, de la compression des poids MX6 et de l’optimisation des modèles (sujets pour des articles techniques plus approfondis), Cerebras et Qualcomm estiment pouvoir augmenter davantage l’efficacité du traitement d’inférence et travaillent ensemble pour le faire. Selon les entreprises, l’utilisation de ces techniques innovantes peut se traduire par une augmentation allant jusqu’à 10 fois du nombre de jetons par dollar.

Augmentation des jetons/dollar lors de l’utilisation de techniques avancées de traitement et de gestion des données, y compris … décodage spéculatif, compression MX6, recherche d’architecture neuronale et dispersion

Les plateformes d’inférence ne seront pas incluses dans les centres de données Condor Galaxy. Cependant, grâce à la conception des cartes d’extension PCIe pour les serveurs traditionnels, les solutions Qualcomm Cloud AI 100 Ultra peuvent facilement être installées dans tout centre de données privé ou public, tel qu’AWS.

Un avenir compétitif

Ce récent succès de Cerebras est bénéfique à la fois pour l’entreprise et pour l’industrie. Tirias Research estime que nous sommes encore aux premiers stades de l’ère de l’IA, en particulier pour l’IA générative. Comme il n’existe pas un seul type ou une seule taille de modèle de réseau neuronal pour répondre aux besoins de chaque application ou utilisateur, il y aura une myriade de modèles. Par conséquent, l’industrie électronique doit s’adapter aux besoins de l’application et de l’utilisateur, qui peuvent aller du traitement sur un appareil grand public ou IoT à des ressources cloud massives. Cela crée le besoin de solutions plus innovantes et différenciées sur le marché. Voir une start-up comme Cerebras rejoindre les rangs des poids lourds des semi-conducteurs et des systèmes apporte la promesse d’une plus grande diversité et innovation dans l’industrie pour résoudre ce qui promet d’être des problèmes plus complexes.