La consommation d’énergie des data centers augmentant de manière exponentielle pour répondre aux besoins technologiques de l’IA générative, notamment des modèles de langage de grande taille, représente un défi majeur pour le réseau électrique américain, rappelant les défis posés par l’adoption généralisée de la climatisation centrale à domicile dans les années 1960.

En effet, selon un rapport de McKinsey datant de janvier 2023, la consommation d’énergie des data centers sur le marché américain devrait passer de 17 gigawatts (GW) en 2017 à 35 GW d’ici 2030. Pour répondre à cette demande supplémentaire de 18 GW, équivalente à neuf fois la puissance du barrage Hoover, il est impératif d’augmenter la production d’énergie et de moderniser les réseaux électriques vieillissants, tout en optant progressivement pour des sources d’énergie renouvelable.

Cependant, face à cette augmentation colossale de la demande en électricité, certains acteurs du secteur privilégient une approche innovante axée sur l’efficacité énergétique, en réduisant la consommation d’énergie des opérations d’inférence de l’IA générative.

L’entraînement d’un seul grand modèle de langage (LLM) peut prendre plusieurs mois et coûter des millions de dollars, avec des estimations suggérant que la formation du GPT-4 aurait nécessité jusqu’à six mois d’exécution sur des milliers de GPU et la consommation de plusieurs GWh d’énergie. Les data centers dédiés à la formation de ces modèles consomment quatre fois plus d’électricité que les data centers hébergeant des applications cloud, en raison notamment des unités de traitement graphique (GPU) utilisées pour les opérations de traitement parallèle en réseau requises par les LLM, tels que ChatGPT et DALL-E 3.

Outre la consommation d’énergie, les GPU génèrent également une quantité importante de chaleur résiduelle, nécessitant des systèmes de refroidissement améliorés. Les data centers doivent alors recourir à des solutions de refroidissement liquide, très gourmandes en ressources, pour maintenir des densités de puissance élevées, dépassant souvent 40 kW par rack.

Face à ces défis, l’efficacité de l’architecture des puces émerge comme une solution clé pour résoudre les problèmes énergétiques de l’IA générative. En repensant l’architecture des puces pour accroître l’efficacité du calcul, il est possible d’obtenir une densité de calcul plus élevée tout en réduisant la consommation d’énergie, offrant ainsi des avantages significatifs en termes de diminution des coûts d’exploitation, de l’empreinte carbone et de la consommation d’eau des data centers.

En définitive, une approche axée sur l’efficacité énergétique et l’innovation technologique pourrait permettre de relever les défis posés par la demande croissante en électricité des infrastructures d’IA générative, tout en contribuant à une transition plus durable vers une économie numérique plus efficace et respectueuse de l’environnement.