La consommation électrique des centres de données pour soutenir la technologie de l’IA générative, notamment les modèles de langage volumineux (LLM), pose un défi pour le réseau électrique américain, comparable à l’essor généralisé de la climatisation centrale domestique dans les années 1960. La croissance simultanée des voitures électriques et de l’IA, qui nécessitent toutes deux de l’électricité et des transformateurs de tension, génère une demande croissante d’équipements électriques et de production d’énergie électrique.
Les prévisions du marché américain des centres de données indiquent que la consommation électrique augmentera de 17 gigawatts (GW) en 2017 à 35 GW d’ici 2030. Ceci équivaudrait à la production de neuf Hoover Dams supplémentaires pour répondre à cette demande accrue. Pour suivre le rythme de la demande croissante, les services publics travaillent à la modernisation des réseaux électriques vieillissants tandis que des entreprises comme Microsoft contractent directement avec des fournisseurs d’énergie renouvelable.
Cependant, d’autres adoptent une approche novatrice en se concentrant sur l’optimisation des opérations d’inférence de l’IA générative pour réduire leur consommation énergétique. La formation d’un seul LLM prend des mois et coûte des millions de dollars, avec une consommation énergétique conséquente. Les centres de données IA consomment quatre fois plus d’électricité que les centres de données hébergeant des applications cloud, en raison de l’utilisation intensive des unités de traitement graphique (GPU) pour les opérations parallèles réseau requises par les LLM.
Les GPU génèrent également plus de chaleur que les unités centrales de traitement (CPU), nécessitant des systèmes de refroidissement améliorés. Les solutions de refroidissement basées sur le chauffage, la ventilation et la climatisation (HVAC) ne suffisent plus pour les racks de GPU, imposant le recours à un refroidissement par liquide. Ces défis techniques rendent difficile la modernisation des centres de données existants pour accueillir les infrastructures d’IA générative.
Alors que la demande de puissance de calcul pour entraîner de nouveaux modèles d’IA est élevée, l’inférence devrait surpasser largement l’entraînement au fur et à mesure que l’utilisation de l’IA générative se généralise. Pour trouver une solution à ce problème, l’amélioration de l’efficacité de l’infrastructure de calcul des centres de données est essentielle.
Une étude de Google de 2021 a montré que l’utilisation d’une architecture de modèle et de processeur plus efficace peut réduire l’empreinte carbone d’un centre de données de 100 à 1 000 fois. En se concentrant sur des architectures de puce plus efficaces, il est donc possible de réduire la consommation énergétique des centres de données, tout en augmentant la densité et l’efficacité du calcul.
Optimiser l’architecture des puces permettrait de réduire les coûts en capital, les frais d’exploitation et la consommation d’énergie pour un même niveau de puissance de calcul. Cette approche non seulement favoriserait une meilleure performance des centres de données, mais contribuerait également à répondre aux objectifs de neutralité carbone du pays.