De Llama 3 à Llama 4 : ce qui change, ce qui reste
Les premiers modèles Llama 4 sont lancés. Si l'architecture, les composants et le pipeline d'entraînement évoluent, des traits de la famille Llama 3 demeurent.

Vous avez dit DeepSeek ?
Les recettes que ce dernier a dévoilées entre fin 2024 et début 2025 ont inspiré Meta. Elles ont effectivement guidé l'entraînement des modèles Llama 4. Ils sont trois pour le moment. Scout (109B ; 210 Go) et Maverick (405B ; 788 Go) sont disponibles en open weight. Behemoth (2T) est en cours de développement.
Passage à l'architecture MoE
Il s'agit des premiers modèles Llama à utiliser l'architecture MoE (Mixture of Experts). Avec elle, chaque token n'active qu'une partie des paramètres (17 milliards en l'occurrence).
Scout utilise 16 "experts" ; Maverick, 128. En alternant couches denses et couches MoE, Meta parvient à faire rentrer le premier sur un GPU H100 (en précision INT4). Et le second sur sur un hôte DGX H100.
Net allongement de la fenêtre de contexte
Les modèles de la famille Llama 3 montaient jusqu'à 128k de contexte*.
Meta annonce 1 million de tokens pour Scout et 10 millions pour Maverick (longueurs évaluées sur 512 GPU avec parallélisme 5D).
Pour atteindre de telles fenêtres, l'architecture Llama 4 emploie, en particulier, des couches d'attention entrelacées sans encodage positionnel explicite. En parallèle, elle opère une mise à l'échelle de la température lors de l'inférence. Plus précisément, de la fonction Softmax, destinée au calcul des scores d'attention. À échelle fixe, son output tend vers zéro à mesure que la taille du vecteur d'entrée augmente, réduisant la capacité du modèle à prioriser les informations-clés.
Place nette à l'apprentissage par renforcement
L'apprentissage par renforcement (RL) apparaît comme la pièce maîtresse dans le pipeline d'entraînement des modèles Llama 4. Meta insiste sur le recours à du SFT (fine-tuning supervisé) "léger"... et fait de même pour l'étape finale de DPO (optimisation basée sur la préférence humaine).
Lire aussi : MLPerf : la quête de benchmarks IA représentatifs
Des modèles Llama ont été utilisés en tant que juges lors du SFT, pour éliminer les données "faciles". De même, la phase de RL s'est limitée à une sélection de prompts de difficulté moyenne ou élevée. Ce filtrage fut dévolu au modèle lui-même, au fur et à mesure du processus d'apprentissage.
Distillation à partir de Llama 4 Behemoth
Behemoth (288B paramètres actifs) a contribué à la formation de Maverick, par distillation. Meta n'en dit pas beaucoup à ce propos. Il affirme toutefois avoir que ce "méga-modèle" a suivi un pipeline d'entraînement similaire aux deux autres. Avec, donc un RL focalisé sur l'échantillonnage de prompts "difficiles" et un filtrage du SFT... plus drastique néanmoins (95 % des données écartées).
Encodeur amélioré pour la vision
L'encodeur est toujours basé sur MetaCLIP. Mais pour mieux s'adapter au LLM, il a été entraîné séparément, en conjonction avec un modèle Llama "gelé".
Toujours que du texte en sortie
Depuis Llama 3.1, Meta considère que ses modèles sont multilingues.
Dans le dataset de Llama 4, plus d'une centaine de langues sont représentées par au moins un milliard de tokens, affirme-t-il.
La documentation de Scout et Maverick liste 12 langues, qu'on peut considérer comme officiellement prises en charge. Pour la vision, néanmoins, seul l'anglais l'est à l'heure actuelle. Les modèles peuvent traiter jusqu'à 5 images par requête. Mais, comme leurs prédécesseurs, ils ne produisent toujours que du texte.
Même licence que depuis Llama 3.1
Jusqu'à Llama 3, la licence sous laquelle Meta distribue ses LLM interdisait leur utilisation, complète ou partielle, y compris les outputs, pour entraîner d'autres modèles.
Depuis Llama 3.1, cet usage est permis... sous conditions : tout modèle dérivé doit, s'il est distribué, inclure "Llama" au début de son nom.
Pour qui distribue tout ou partie des modèles Llama ou bien des produits ou des services fondés sur ces modèles, une condition d'attribution s'applique. Il faut afficher, sur "un site, une UI, un blogpost, une page "À propos" ou une doc produit", la mention "Built with Llama".
Les restrictions sur l'usage des modèles Llama multimodaux dans l'UE demeurent. Tout comme les dérogations accordées aux entreprises non établies sur place. Elles permettent notamment :
- À leurs employés résidant dans l'UE d'utiliser ces modèles
- La commercialisation, dans l'UE, de produits et services basés sur Llama
- Le recours à des développeurs basés dans l'UE
Bénéficient aussi d'une exception les sociétés non européennes affiliées à des sociétés européennes (y compris les filiales).
De maigres précisions sur le dataset d'entraînement
Meta avait pris l'habitude de déclarer que ses modèles étaient entraînés à partir d'un "mix de données disponibles publiquement".
Avec Llama 4, il précise avoir utilisé des informations issues de ses produits, dont "des posts publics d'Instagram et de Facebook et des interactions de personnes avec Meta AI".
Deux fourchettes estimatives de prix communiquées
Meta communique deux estimations de prix en inférence pour Llama 4 Maverick :
- 0,19 à 0,49 $ par million de tokens en inférence distribuée
- 0,30 à 0,49 $ par million de tokens sur un seul hôte
* La famille Llama 3.1 comprend trois modèles text-only (8B, 70B, 405B) à 128k.
Llama 3.2 en comprend six : deux avec vision (11B, 90B) à 128k et leurs versions quantisées (1B,3B) à 8k, ainsi que deux modèles "légers" (1B, 3B) à 128k.
Llama 3.3 est un modèle 70B text-only à 128k.
Illustration principale © Meta
Sur le même thème
Voir tous les articles Data & IA