De Llama 3 à Llama 4 : ce qui change, ce qui reste

Les premiers modèles Llama 4 sont lancés. Si l'architecture, les composants et le pipeline d'entraînement évoluent, des traits de la famille Llama 3 demeurent.

Publié par Clément Bohic le 7 avr. 2025 | mis à jour à 10:40

Lecture
5 min

Imprimer

Vous avez dit DeepSeek ?

Les recettes que ce dernier a dévoilées entre fin 2024 et début 2025 ont inspiré Meta. Elles ont effectivement guidé l'entraînement des modèles Llama 4. Ils sont trois pour le moment. Scout (109B ; 210 Go) et Maverick (405B ; 788 Go) sont disponibles en open weight. Behemoth (2T) est en cours de développement.

Passage à l'architecture MoE

Il s'agit des premiers modèles Llama à utiliser l'architecture MoE (Mixture of Experts). Avec elle, chaque token n'active qu'une partie des paramètres (17 milliards en l'occurrence).

Scout utilise 16 "experts" ; Maverick, 128. En alternant couches denses et couches MoE, Meta parvient à faire rentrer le premier sur un GPU H100 (en précision INT4). Et le second sur sur un hôte DGX H100.

Net allongement de la fenêtre de contexte

Les modèles de la famille Llama 3 montaient jusqu'à 128k de contexte*.

Meta annonce 1 million de tokens pour Scout et 10 millions pour Maverick (longueurs évaluées sur 512 GPU avec parallélisme 5D).

Pour atteindre de telles fenêtres, l'architecture Llama 4 emploie, en particulier, des couches d'attention entrelacées sans encodage positionnel explicite. En parallèle, elle opère une mise à l'échelle de la température lors de l'inférence. Plus précisément, de la fonction Softmax, destinée au calcul des scores d'attention. À échelle fixe, son output tend vers zéro à mesure que la taille du vecteur d'entrée augmente, réduisant la capacité du modèle à prioriser les informations-clés.

Place nette à l'apprentissage par renforcement

L'apprentissage par renforcement (RL) apparaît comme la pièce maîtresse dans le pipeline d'entraînement des modèles Llama 4. Meta insiste sur le recours à du SFT (fine-tuning supervisé) "léger"... et fait de même pour l'étape finale de DPO (optimisation basée sur la préférence humaine).

Des modèles Llama ont été utilisés en tant que juges lors du SFT, pour éliminer les données "faciles". De même, la phase de RL s'est limitée à une sélection de prompts de difficulté moyenne ou élevée. Ce filtrage fut dévolu au modèle lui-même, au fur et à mesure du processus d'apprentissage.

Distillation à partir de Llama 4 Behemoth

Behemoth (288B paramètres actifs) a contribué à la formation de Maverick, par distillation. Meta n'en dit pas beaucoup à ce propos. Il affirme toutefois avoir que ce "méga-modèle" a suivi un pipeline d'entraînement similaire aux deux autres. Avec, donc un RL focalisé sur l'échantillonnage de prompts "difficiles" et un filtrage du SFT... plus drastique néanmoins (95 % des données écartées).

Encodeur amélioré pour la vision

L'encodeur est toujours basé sur MetaCLIP. Mais pour mieux s'adapter au LLM, il a été entraîné séparément, en conjonction avec un modèle Llama "gelé".

Toujours que du texte en sortie

Depuis Llama 3.1, Meta considère que ses modèles sont multilingues.
Dans le dataset de Llama 4, plus d'une centaine de langues sont représentées par au moins un milliard de tokens, affirme-t-il.

La documentation de Scout et Maverick liste 12 langues, qu'on peut considérer comme officiellement prises en charge. Pour la vision, néanmoins, seul l'anglais l'est à l'heure actuelle. Les modèles peuvent traiter jusqu'à 5 images par requête. Mais, comme leurs prédécesseurs, ils ne produisent toujours que du texte.

Même licence que depuis Llama 3.1

Jusqu'à Llama 3, la licence sous laquelle Meta distribue ses LLM interdisait leur utilisation, complète ou partielle, y compris les outputs, pour entraîner d'autres modèles.

Depuis Llama 3.1, cet usage est permis... sous conditions : tout modèle dérivé doit, s'il est distribué, inclure "Llama" au début de son nom.
Pour qui distribue tout ou partie des modèles Llama ou bien des produits ou des services fondés sur ces modèles, une condition d'attribution s'applique. Il faut afficher, sur "un site, une UI, un blogpost, une page "À propos" ou une doc produit", la mention "Built with Llama".

Les restrictions sur l'usage des modèles Llama multimodaux dans l'UE demeurent. Tout comme les dérogations accordées aux entreprises non établies sur place. Elles permettent notamment :

À leurs employés résidant dans l'UE d'utiliser ces modèles
La commercialisation, dans l'UE, de produits et services basés sur Llama
Le recours à des développeurs basés dans l'UE

Bénéficient aussi d'une exception les sociétés non européennes affiliées à des sociétés européennes (y compris les filiales).

De maigres précisions sur le dataset d'entraînement

Meta avait pris l'habitude de déclarer que ses modèles étaient entraînés à partir d'un "mix de données disponibles publiquement".

Avec Llama 4, il précise avoir utilisé des informations issues de ses produits, dont "des posts publics d'Instagram et de Facebook et des interactions de personnes avec Meta AI".

Deux fourchettes estimatives de prix communiquées

Meta communique deux estimations de prix en inférence pour Llama 4 Maverick :

0,19 à 0,49 $ par million de tokens en inférence distribuée
0,30 à 0,49 $ par million de tokens sur un seul hôte

* La famille Llama 3.1 comprend trois modèles text-only (8B, 70B, 405B) à 128k.
Llama 3.2 en comprend six : deux avec vision (11B, 90B) à 128k et leurs versions quantisées (1B,3B) à 8k, ainsi que deux modèles "légers" (1B, 3B) à 128k.
Llama 3.3 est un modèle 70B text-only à 128k.

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

De Llama 3 à Llama 4 : ce qui change, ce qui reste

Passage à l'architecture MoE

Net allongement de la fenêtre de contexte

Place nette à l'apprentissage par renforcement

Distillation à partir de Llama 4 Behemoth

Encodeur amélioré pour la vision

Toujours que du texte en sortie

Même licence que depuis Llama 3.1

De maigres précisions sur le dataset d'entraînement

Deux fourchettes estimatives de prix communiquées

{ Tribune Expert } - La voie vers une véritable IA open source

MLPerf : la quête de benchmarks IA représentatifs

Apps mobiles : du nouveau dans les recommandations de la CNIL

Mainframes z17 : les cartes Spyre, au coeur de la promesse IA d'IBM

OpenAI va publier un modèle Open-Weight

FFTO : Fiber To The Office ou la haute disponibilité [...]

L'UHD et la Transformation Numérique : Répondre aux [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2