Meta a dévoilé hier les deux premiers modèles de sa nouvelle famille Llama 3 : Llama 3 7B et Llama 3 70B. Ces modèles open source sont déjà intégrés dans l’assistant Meta AI de Meta, et selon l’entreprise, ils représentent une avancée majeure par rapport à la version précédente, réduisant les taux de faux refus, améliorant l’alignement et diversifiant les réponses.
Llama 3 se distingue par ses capacités de raisonnement et de génération de code améliorées, et Meta a comparé leurs performances avec les modèles concurrents, comme Gemma de Google et Mistral 7 de Mistral AI. L’ensemble de données utilisé pour l’entraînement de Llama 3 est impressionnant, totalisant plus de 15 téraoctets de données publiques incluant quatre fois plus de code que son prédécesseur.
Des améliorations architecturales ont également été apportées, notamment l’utilisation d’un tokenizer plus efficace et l’implémentation de l’approche Group Query Attention pour l’inférence des modèles. Les modèles Llama 3 seront prochainement disponibles sur plusieurs plateformes cloud renommées, telles que AWS et Google Cloud.
Meta prévoit de lancer plusieurs modèles multimodaux dans les mois à venir, offrant une prise en charge de plusieurs langues et une fenêtre contextuelle plus longue. L’évolution la plus attendue est la sortie du modèle Llama 3 400B, le plus grand de la famille, dont l’entraînement est en cours.
Les utilisateurs intéressés peuvent dès maintenant accéder aux poids de Llama 3 et au générateur de jetons sur GitHub, et rester à l’affût des nouvelles versions à venir.