Les modèles linguistiques de grande envergure, les systèmes d’IA qui alimentent des chatbots comme ChatGPT, s’améliorent de plus en plus, mais deviennent également de plus en plus gros, demandant plus d’énergie et de puissance de calcul. Pour que les LLM (Large Language Models) soient bon marché, rapides et respectueux de l’environnement, ils devront réduire leur taille, idéalement assez petite pour fonctionner directement sur des appareils tels que des téléphones portables. Les chercheurs cherchent des moyens de le faire en arrondissant de manière drastique les nombreux nombres à haute précision qui stockent leurs souvenirs pour les égaliser à juste 1 ou -1.

Les LLM, comme tous les réseaux neuronaux, sont entraînés en modifiant les forces de connexion entre leurs neurones artificiels. Ces forces sont stockées sous forme de paramètres mathématiques. Les chercheurs ont depuis longtemps compressé les réseaux en réduisant la précision de ces paramètres, un processus appelé quantification, de telle sorte qu’au lieu de prendre 16 bits chacun, ils pourraient en prendre 8 ou 4. Maintenant, les chercheurs poussent l’enveloppe vers un seul bit.

Comment créer un LLM à 1 bit

Il existe deux approches générales. Une approche, appelée quantification post-entraînement (PTQ), consiste à quantifier les paramètres d’un réseau à pleine précision. L’autre approche, l’entraînement sensible à la quantification (QAT), consiste à former un réseau à partir de zéro pour avoir des paramètres de faible précision. Jusqu’à présent, le PTQ a été plus populaire auprès des chercheurs.

En février, une équipe comprenant Haotong Qin à l’ETH Zurich, Xianglong Liu à l’Université de Beihang et Wei Huang à l’Université de Hong Kong a introduit une méthode PTQ appelée BiLLM. Il approxime la plupart des paramètres d’un réseau en utilisant 1 bit, mais représente quelques poids saillants – ceux les plus influents pour la performance – en utilisant 2 bits. Dans un test, l’équipe a binarisé une version du LLM LLaMa de Meta qui compte 13 milliards de paramètres.

Les LLM à 1 bit trouvent du succès face à leurs cousins plus grands

L’année dernière, une équipe dirigée par Furu Wei et Shuming Ma, à Microsoft Research Asia, à Beijing, a créé BitNet, le premier modèle QAT à 1 bit pour les LLM. Après avoir ajusté le taux auquel le réseau ajuste ses paramètres pour stabiliser l’entraînement, ils ont créé des LLM qui se sont mieux comportés que ceux créés à l’aide de méthodes PTQ. Ils n’étaient toujours pas aussi bons que les réseaux à pleine précision, mais étaient environ 10 fois plus efficaces en termes d’énergie.

En février, l’équipe de Wei a annoncé BitNet 1.58b, dans lequel les paramètres peuvent être égaux à -1, 0 ou 1, ce qui signifie qu’ils prennent environ 1,58 bits de mémoire par paramètre. Un modèle BitNet avec 3 milliards de paramètres se comportait aussi bien sur diverses tâches linguistiques qu’un modèle LLaMA à pleine précision avec le même nombre de paramètres et la même quantité d’entraînement, mais il était 2,71 fois plus rapide, utilisait 72% moins de mémoire de GPU et utilisait 94% moins d’énergie de GPU. Wei a qualifié cela de “moment aha”. De plus, les chercheurs ont constaté qu’à mesure qu’ils entraînaient des modèles plus grands, les avantages en matière d’efficacité s’amélioraient.

Cette année, une équipe dirigée par Che, de l’Institut de technologie de Harbin, a publié un préprint sur une autre méthode de binarisation de LLM, appelée OneBit. OneBit combine des éléments à la fois du PTQ et du QAT. Il utilise un LLM préentraîné en pleine précision pour générer des données pour entraîner une version quantifiée. Le modèle de 13 milliards de paramètres de l’équipe a obtenu un score de perplexité d’environ 9 sur un ensemble de données, contre 5 pour un modèle LLaMA avec 13 milliards de paramètres. Pendant ce temps, OneBit occupait seulement 10% de la mémoire. Sur des puces personnalisées, il pourrait probablement fonctionner beaucoup plus rapidement.

Wei, de Microsoft, dit que les modèles quantifiés présentent plusieurs avantages. Ils peuvent s’adapter sur des puces plus petites, nécessitent moins de transfert de données entre la mémoire et les processeurs, et permettent un traitement plus rapide. Cependant, le matériel actuel ne peut pas tirer pleinement parti de ces modèles. Les LLM fonctionnent souvent sur des GPU comme ceux fabriqués par Nvidia, qui représentent les poids avec une précision plus élevée et dépensent la majeure partie de leur énergie à les multiplier. Un nouveau matériel pourrait représenter nativement chaque paramètre comme un -1 ou 1 (ou 0), puis simplement ajouter et soustraire des valeurs pour éviter la multiplication. Wei dit que les LLM à 1 bit ouvrent de nouvelles voies pour la conception de matériel personnalisé et de systèmes spécifiquement optimisés pour les LLM à 1 bit.

“Ils doivent grandir ensemble”, dit Huang, de l’Université de Hong Kong, à propos des modèles à 1 bit et des processeurs. “Mais il reste encore beaucoup de chemin à parcourir pour développer un nouveau matériel.”