La consommation d’énergie des centres de données pour soutenir la technologie d’IA générative, y compris les grands modèles linguistiques (LLM), met à rude épreuve le réseau électrique américain de manière inédite depuis l’adoption généralisée de la climatisation centralisée à domicile dans les années 1960.
Cette demande croissante en électricité est due à la croissance simultanée des voitures électriques et de l’IA, toutes deux nécessitant de l’électricité et des transformateurs de tension, selon les propos du PDG de Tesla, Elon Musk, lors d’une interview à la conférence Bosch Connected World en février.
Selon un rapport de McKinsey de janvier 2023, la consommation d’énergie des centres de données sur le marché américain devrait passer de 17 gigawatts (GW) en 2017 à 35 GW d’ici 2030, nécessitant l’équivalent de neuf barrages Hoover pour répondre à cette demande supplémentaire de 18 GW. Pour augmenter la production d’électricité et répondre à une demande croissante, les fournisseurs d’électricité travaillent à la modernisation des réseaux électriques vieillissants, tandis que des entreprises telles que Microsoft ont commencé à contracter directement avec des fournisseurs d’énergie renouvelable.
Cependant, certains adoptent une approche plus novatrice en se concentrant sur l’augmentation de l’efficacité en réduisant la consommation d’énergie des opérations d’inférence de l’IA générative.
Les centres de données d’IA et les pièges de l’augmentation de la demande de calcul
La formation d’un seul grand modèle linguistique (LLM) prend des mois et coûte des millions de dollars. Certains experts estiment que la formation du GPT-4 a pris jusqu’à six mois avec des milliers de GPU et la consommation de plusieurs GWh d’énergie.
De plus, les centres de données d’IA qui forment ces modèles consomment quatre fois plus d’électricité que les centres de données hébergeant des applications cloud, en raison des unités de traitement graphique (GPU) nécessaires aux opérations de traitement parallèle en réseau des LLM tels que ChatGPT et DALL-E 3. Les unités centrales de traitement (CPU) d’Intel et AMD consomment généralement entre 300 et 400 watts. La GPU H100 de NVIDIA, quant à elle, consomme 700 watts.
Selon Paul Churnock, ingénieur électrique principal chez Microsoft, NVIDIA estime vendre environ 2 millions de H100 en 2024. La consommation combinée de ces GPU dépasserait celle de la consommation électrique résidentielle de Phoenix, Arizona, et rivaliserait avec celle de Houston, Texas, une ville de 2,2 millions d’habitants.
Les GPU génèrent également beaucoup plus de chaleur que les CPU, nécessitant des systèmes de refroidissement améliorés. Par exemple, les solutions de refroidissement basées sur la climatisation (HVAC) sont suffisantes pour une salle serveur CPU avec des densités de puissance de rack allant jusqu’à 30 kW. Cependant, les racks de GPU d’aujourd’hui offrent des densités de puissance dépassant 40 kW, ce qui nécessite un refroidissement liquide, extrêmement intensif en ressources. Microsoft aurait consommé 6,4 millions de mètres cubes d’eau pour refroidir ses centres de données en 2022, ce qui représente une hausse de 34 % par rapport à l’année précédente, dans le cadre de ses efforts intensifs de développement d’IA.
Ces facteurs rendent la rénovation des centres de données existants difficile, car l’infrastructure électrique existante ne supporte qu’un quart des GPU par rapport aux CPU. Ces rénovations nécessitent des installations supplémentaires de matériel et de systèmes de refroidissement, ainsi que d’éventuels travaux d’ingénierie sur le bâtiment lui-même. Les besoins de réseautage du centre augmenteront également en raison de la charge de trafic accrue due à la capacité de calcul accrue.
Les LLM nécessitent une rééducation régulière avec des informations mises à jour pour maintenir leurs bases de connaissances à jour et maintenir la précision des réponses. Bien qu’il y ait actuellement une forte demande de calcul pour former les nombreux nouveaux modèles, à mesure qu’ils gagnent en acceptation et en utilisation, la demande de calcul d’inférence dépassera de loin celle de la formation.
L’architecture de puce efficace est la clé du dilemme de puissance de l’IA
Tout comme l’élargissement des autoroutes n’améliore pas la congestion routière, simplement augmenter la quantité d’électricité que nous produisons ne résoudra pas les problèmes de puissance de notre IA générative. Cela ne ferait qu’exacerber les impacts environnementaux négatifs de l’infrastructure actuelle de génération d’électricité aux États-Unis et poserait un défi de taille pour atteindre les objectifs de zéro carbone du pays. Il est donc essentiel d’améliorer l’efficacité de notre infrastructure de calcul en centre de données.
Une étude de 2021 de Google a révélé que, pour une même superficie, l’utilisation d’une architecture de modèle et de processeur plus efficace peut réduire l’empreinte carbone d’un centre de données de 100 à 1 000 fois. Alors, pourquoi nous contentons-nous de faire plus de la même chose alors que nous pourrions trouver un moyen plus efficace de calculer les données d’IA ?
Nous devrions plutôt nous concentrer sur l’obtention du calcul le plus dense et le plus efficace en repensant l’architecture de la puce elle-même. En améliorant l’efficacité du calcul grâce à une meilleure architecture, nous pouvons intégrer plus de calcul dans un package de périphérique plus petit, tout en consommant beaucoup moins d’énergie que la même quantité de calcul sur une puce plus grande et moins efficace.
Cela signifie que vous pouvez mettre beaucoup plus de calcul dans un centre de données donné, plus que vous ne le pourriez avec les solutions existantes. Vous pourriez effectivement avoir besoin de construire moins de centres de données et pourriez même rénover les installations existantes pour obtenir un niveau de performance plus élevé. Ils consommeraient moins d’énergie en augmentant l’efficacité (terra flops par watt), ce qui réduirait le besoin de refroidissement liquide dans le centre de données et la consommation d’eau également.
Le résultat final bénéficie significativement à tous—beaucoup moins de dépenses en capital, des coûts d’exploitation réduits et une consommation d’énergie moindre pour la même quantité de calcul.