Les modèles de langage à grande échelle, les systèmes d’IA qui alimentent des chatbots comme ChatGPT, s’améliorent de plus en plus, mais ils deviennent aussi de plus en plus grands, nécessitant davantage d’énergie et de puissance de calcul. Pour que les LLM soient à la fois bon marché, rapides et respectueux de l’environnement, ils devront réduire leur taille, de préférence suffisamment pour fonctionner directement sur des appareils tels que les téléphones portables. Les chercheurs trouvent des moyens d’y parvenir en arrondissant drastiquement les nombreux nombres à grande précision qui stockent leurs mémoires pour les égaliser à seulement 1 ou -1.

Les LLM, comme tous les réseaux neuronaux, sont formés en modifiant les forces de connexion entre leurs neurones artificiels. Ces forces sont stockées sous forme de paramètres mathématiques. Les chercheurs ont longtemps compressé les réseaux en réduisant la précision de ces paramètres – un processus appelé quantification – de sorte qu’au lieu de prendre 16 bits chacun, ils pourraient prendre 8 ou 4. Maintenant, les chercheurs poussent l’enveloppe jusqu’à un seul bit.

Il existe deux approches générales pour créer un LLM à 1 bit. Une approche, appelée quantification post-entraînement (PTQ), consiste à quantifier les paramètres d’un réseau à pleine précision. L’autre approche, l’entraînement sensible à la quantification (QAT), consiste à former un réseau à partir de zéro pour avoir des paramètres de faible précision. Jusqu’à présent, le PTQ a été plus populaire auprès des chercheurs.

En février, une équipe comprenant Haotong Qin à l’ETH Zurich, Xianglong Liu à l’Université de Beihang et Wei Huang à l’Université de Hong Kong a introduit une méthode PTQ appelée BiLLM. Elle permet d’approximer la plupart des paramètres d’un réseau en utilisant 1 bit, mais représente quelques poids saillants – ceux les plus influents pour les performances – en utilisant 2 bits. Dans un test, l’équipe a réalisé une version binarisée du LLM LLaMa de Meta qui compte 13 milliards de paramètres.

“Les LLM à 1 bit ouvrent de nouvelles perspectives pour la conception de matériels et de systèmes spécifiquement optimisés pour les LLM à 1 bit.” – Furu Wei, Microsoft Research Asia

Pour évaluer les performances, les chercheurs ont utilisé un indicateur appelé perplexité, qui mesure essentiellement le degré de surprise du modèle entraîné par chaque morceau de texte suivant. Pour un ensemble de données, le modèle original avait une perplexité d’environ 5, et la version BiLLM a obtenu environ 15, bien mieux que le compétiteur le plus proche en binarisation, qui a obtenu environ 37 (pour la perplexité, les nombres les plus bas sont meilleurs). Cela dit, le modèle BiLLM a nécessité environ un dixième de la capacité mémoire de l’original.

Le PTQ présente plusieurs avantages par rapport au QAT, explique Wanxiang Che, informaticien à l’Institut de technologie de Harbin, en Chine. Il ne nécessite pas de collecte de données d’entraînement, ne nécessite pas de formation d’un modèle à partir de zéro, et le processus de formation est plus stable. Le QAT, en revanche, a le potentiel d’améliorer la précision des modèles, car la quantification est intégrée au modèle dès le début.

Les LLM à 1 bit rencontrent le succès face à leurs plus grands cousins

L’année dernière, une équipe dirigée par Furu Wei et Shuming Ma, au Microsoft Research Asia de Beijing, a créé BitNet, la première méthode QAT à 1 bit pour les LLM. Après avoir ajusté le taux auquel le réseau ajuste ses paramètres pour stabiliser l’entraînement, ils ont créé des LLM qui se sont mieux comportés que ceux créés à l’aide de méthodes PTQ. Ils n’étaient toujours pas aussi performants que les réseaux à pleine précision, mais étaient environ 10 fois plus économes en énergie.

En février, l’équipe de Wei a annoncé BitNet 1.58b, dans laquelle les paramètres peuvent être égaux à -1, 0 ou 1, ce qui signifie qu’ils occupent environ 1,58 bits de mémoire par paramètre. Un modèle BitNet avec 3 milliards de paramètres s’est aussi bien comporté sur diverses tâches linguistiques qu’un modèle LLaMA à pleine précision comportant le même nombre de paramètres et la même quantité d’entraînement, mais était 2,71 fois plus rapide, utilisait 72 % de mémoire GPU en moins et consommait 94 % d’énergie GPU en moins. Wei a qualifié cela de “moment aha”. De plus, les chercheurs ont constaté qu’à mesure qu’ils formaient des modèles plus importants, les avantages en efficacité s’amélioraient.

Cette année, une équipe dirigée par Che, de l’Institut de technologie de Harbin, a publié un prétexte sur une autre méthode de binarisation LLM, appelée OneBit. OneBit combine des éléments du PTQ et du QAT. Il utilise un LLM pré-entraîné à pleine précision pour générer des données pour former une version quantifiée. Le modèle de 13 milliards de paramètres de l’équipe a obtenu une perplexité d’environ 9 sur un jeu de données, contre 5 pour un modèle LLaMa avec 13 milliards de paramètres. En outre, OneBit n’occupait que 10 % de la mémoire. Sur des puces personnalisées, il pourrait probablement fonctionner beaucoup plus rapidement.

Wei, de Microsoft, affirme que les modèles quantifiés présentent de multiples avantages. Ils peuvent s’adapter à des puces plus petites, nécessitent moins de transferts de données entre la mémoire et les processeurs, et permettent un traitement plus rapide. Cependant, le matériel actuel ne peut pas tirer pleinement parti de ces modèles. Les LLM tournent souvent sur des GPU comme ceux fabriqués par Nvidia, qui représentent les poids à l’aide de haute précision et dépensent la plupart de leur énergie à les multiplier. Un nouveau matériel pourrait représenter nativement chaque paramètre comme un -1 ou 1 (ou 0), puis simplement ajouter et soustraire des valeurs et éviter la multiplication. “Les LLM à 1 bit ouvrent de nouvelles portes pour la conception de matériels et de systèmes spécifiquement optimisés pour les LLM à 1 bit”, déclare Wei.

“Ils devraient grandir ensemble”, déclare Huang, de l’Université de Hong Kong, à propos des modèles et processeurs à 1 bit. “Mais il reste encore beaucoup à faire pour développer de nouveaux matériels.”