Les modèles de langage à grande échelle, les systèmes d’intelligence artificielle qui alimentent les chatbots comme ChatGPT, deviennent de plus en plus performants, mais aussi de plus en plus gros, demandant davantage d’énergie et de puissance de calcul. Pour que les LLM soient bon marché, rapides et respectueux de l’environnement, ils devront être réduits, idéalement suffisamment petits pour fonctionner directement sur des appareils tels que les téléphones portables. Les chercheurs trouvent des moyens d’y parvenir en arrondissant considérablement les nombreux nombres à haute précision qui stockent leurs mémoires pour les égaler à juste 1 ou -1.
Les LLM, comme tous les réseaux neuronaux, sont entraînés en modifiant les forces des connexions entre leurs neurones artificiels. Ces forces sont stockées sous forme de paramètres mathématiques. Les chercheurs ont depuis longtemps compressé les réseaux en réduisant la précision de ces paramètres – un processus appelé quantification – de sorte qu’au lieu de prendre 16 bits chacun, ils pourraient en prendre 8 ou 4. Maintenant, les chercheurs poussent l’enveloppe jusqu’à un seul bit.
Comment fabriquer un LLM à 1 bit
Il existe deux approches générales. Une approche, appelée quantification après entraînement (PTQ), consiste à quantifier les paramètres d’un réseau en pleine précision. L’autre approche, appelée entraînement conscient de la quantification (QAT), consiste à entraîner un réseau à partir de zéro pour avoir des paramètres de faible précision. Jusqu’à présent, le PTQ a été plus populaire auprès des chercheurs.
En février, une équipe comprenant Haotong Qin à l’ETH Zurich, Xianglong Liu à l’Université de Beihang et Wei Huang à l’Université de Hong Kong a introduit une méthode PTQ appelée BiLLM. Il approxime la plupart des paramètres d’un réseau en utilisant 1 bit, mais représente quelques poids saillants – ceux les plus influents sur les performances – en utilisant 2 bits. Dans un test, l’équipe a binarisé une version du LLM LLaMa de Meta qui comptait 13 milliards de paramètres.
Les LLM à 1 bit trouvent du succès contre leurs grands cousins
L’année dernière, une équipe dirigée par Furu Wei et Shuming Ma, du Microsoft Research Asia, à Pékin, a créé BitNet, la première méthode QAT à 1 bit pour les LLM. Après avoir joué avec le taux auquel le réseau ajuste ses paramètres pour stabiliser l’entraînement, ils ont créé des LLM qui se sont mieux comportés que ceux créés à l’aide de méthodes PTQ. Ils n’étaient toujours pas aussi performants que les réseaux en pleine précision, mais environ 10 fois plus économes en énergie.
En février, l’équipe de Wei a annoncé BitNet 1.58b, dans laquelle les paramètres peuvent être égaux à -1, 0 ou 1, ce qui signifie qu’ils occupent environ 1,58 bits de mémoire par paramètre. Un modèle BitNet avec 3 milliards de paramètres s’est aussi bien comporté sur diverses tâches linguistiques qu’un modèle LLaMA en pleine précision avec le même nombre de paramètres et la même quantité d’entraînement, mais il était 2,71 fois plus rapide, utilisait 72 % de mémoire GPU en moins et consommait 94 % d’énergie GPU en moins. Wei a qualifié cela de “moment aha”. De plus, les chercheurs ont constaté que plus ils entraînaient de grands modèles, plus les avantages d’efficacité augmentaient.
Cette année, une équipe dirigée par Che, de l’Institut de technologie de Harbin, a publié une prépublication sur une autre méthode de binarisation de LLM, appelée OneBit. OneBit combine des éléments à la fois du PTQ et du QAT. Il utilise un LLM pré-entraîné en pleine précision pour générer des données pour l’entraînement d’une version quantifiée. Le modèle de 13 milliards de paramètres de l’équipe a obtenu un score de perplexité d’environ 9 sur un jeu de données, contre 5 pour un modèle LLaMA avec 13 milliards de paramètres. Parallèlement, OneBit ne prenait que 10 % de mémoire. Sur des puces personnalisées, il pourrait probablement s’exécuter beaucoup plus rapidement.
Wei, de Microsoft, dit que les modèles quantifiés ont de multiples avantages. Ils peuvent tenir sur des puces plus petites, nécessitent moins de transfert de données entre la mémoire et les processeurs, et permettent un traitement plus rapide. Cependant, le matériel actuel ne peut pas tirer pleinement parti de ces modèles. Les LLM fonctionnent souvent sur des GPU comme ceux fabriqués par Nvidia, qui représentent les poids en utilisant une précision plus élevée et dépensent la plupart de leur énergie à les multiplier. Un nouveau matériel pourrait représenter nativement chaque paramètre comme un -1 ou 1 (ou 0), puis simplement ajouter et soustraire des valeurs et éviter la multiplication. “Les LLM à 1 bit ouvrent de nouvelles portes pour la conception de matériels personnalisés et de systèmes spécifiquement optimisés pour les LLM à 1 bit,” déclare Wei.
“Ils devraient grandir ensemble,” déclare Huang, de l’Université de Hong Kong, à propos des modèles à 1 bit et des processeurs. “Mais il reste beaucoup à faire pour développer un nouveau matériel.”