Meta a dévoilé lors de sa conférence annuelle Meta Connect, la dernière version de sa famille de modèles Llama 3.2. Composée de quatre modèles, deux sont multimodaux, capables de traiter les images (11B et 90B), tandis que les deux autres (1B et 3B) sont uniquement textuels. Ces derniers sont destinés aux smartphones et aux périphériques et sont disponibles pour l’Europe.
Les modèles Llama 3.2 sont multilingues et disposent d’une fenêtre contextuelle pouvant aller jusqu’à 128 000 jetons. Les modèles de vision 11B et 90B sont les premiers de la série Llama à intégrer des capacités de traitement d’images grâce à une nouvelle architecture. Ils sont prêts à l’emploi dès leur téléchargement et peuvent être affinés simplement avec TorchTune, puis déployés localement avec TorchChat.
Les modèles 1B et 3B sont conçus pour fonctionner de manière optimale sur des appareils légers, tels que les téléphones mobiles. Ils sont disponibles en versions pré-entraînées ou adaptées et permettent une personnalisation facile pour diverses applications.
Côté performances, les modèles de vision Llama 3.2 sont compétitifs avec des modèles leaders. Le modèle 3B surpasse des concurrents dans des tâches comme le suivi d’instructions, la synthèse et l’utilisation d’outils. Le modèle 1B, plus léger, reste compétitif.
Meta a également introduit les premières distributions de Llama Stack, une suite d’outils conçus pour simplifier le déploiement de ces modèles dans différents environnements. Les distributions regroupent plusieurs fournisseurs d’API pour offrir aux développeurs un point d’accès unique.
En conclusion, Meta continue de promouvoir une approche ouverte pour encourager l’innovation. Les modèles Llama 3.2 sont disponibles au téléchargement et peuvent être utilisés directement sur un large éventail de plateformes partenaires.