Les modèles de langue en intelligence artificielle : quand la taille est-elle importante?

Dans cette ère nouvelle de l’IA générative, une importante question émerge quant à l’efficacité des modèles de petite taille en comparaison à leurs homologues plus volumineux et propriétaires. Cette interrogation suscite un vif intérêt dans certains coins spécialisés des réseaux sociaux, en remettant en question le postulat selon lequel “plus grand est toujours mieux”.

Des chercheurs de l’Université du Michigan et de Jaseci Labs ont récemment examiné cette question de manière rigoureuse et érudite. Leur étude, bientôt publiée dans les actes prestigieux de l’ISPASS 2024, offre des résultats surprenants qui incitent à repenser notre conception des modèles d’IA à utiliser dans des contextes de production et commerciaux, ainsi que l’efficacité qui en découle.

Deux grands concurrents sont mis en avant : d’un côté, les Large Language Models (GPT-4 et consorts), et de l’autre, les Small Language Models. Alors qu’Open AI a publié des modèles GPT-4 d’au moins 540 gigaoctets, les modèles de petite taille étudiés dans l’étude ne pèsent qu’environ trois gigaoctets, soit près de 200 fois moins. Cette comparaison illustre l’énorme différence d’échelle entre les deux types de modèles.

L’étude s’est notamment appuyée sur un cas pratique impliquant un outil de productivité, Myca.ai, enrichi par l’IA pour fournir des encouragements personnalisés basés sur le niveau de productivité de l’utilisateur. Les résultats ont été remarquables, mettant en lumière des éléments clés qui remettent en question le statu quo.

En termes de qualité de réponse, les résultats ont montré que les petits modèles ouverts n’étaient pas seulement compétents, mais parfois même supérieurs aux modèles propriétaires plus volumineux. Sur le plan de la vitesse, les modèles plus petits étaient jusqu’à dix fois plus rapides que GPT-4, offrant une latence de réponse constante et fiable. Enfin, l’avantage financier était tout aussi significatif, avec des coûts de déploiement pouvant être jusqu’à 23 fois moins élevés qu’avec un modèle comme GPT-4.

Cette recherche révolutionnaire remet en question les préjugés concernant la taille des modèles d’IA et invite à une approche plus agile et économique dans leur développement et leur utilisation. En optant pour des modèles plus petits et ouverts, les entreprises peuvent non seulement contrôler leurs coûts mais également personnaliser la technologie selon leurs besoins spécifiques.

Cette étude ouvre la voie à une nouvelle ère dans le domaine de l’IA, où l’accessibilité et la flexibilité des modèles sont mises en avant pour favoriser l’innovation et la démocratisation de cette technologie révolutionnaire. Jaseci Labs accompagne déjà des entreprises dans cette transition vers des modèles plus petits et adaptés, annonçant peut-être une rupture majeure avec les géants actuels de l’IA.

L’analyse détaillée de cette recherche pionnière est disponible dans notre article académique prochainement publié. Nous vous encourageons à explorer ces résultats pour éclairer vos décisions futures dans le domaine de l’IA et à envisager comment l’adoption de modèles plus petits pourrait non seulement améliorer vos projets technologiques mais également ouvrir de nouvelles perspectives dans ce domaine en constante évolution.