Ce que Llama 3 dit de l'évolution des LLM

Diverses tendances animant l’univers des LLM transparaissent en filigrane du discours de Meta sur Llama 3.

Publié par Clément Bohic le 19 avr. 2024 | Mis à jour le 23 avr. 2024 à 18:14

Lecture
4 min

Imprimer

Jusqu’où peut-on cadrer la sûreté d’un LLM ? Une bonne partie du discours de Meta autour de Llama 3 recouvre cet aspect.

Les deux premiers modèles de cette famille viennent d’être publiés. Comme avec la génération Llama 2, il convient d’accepter une licence maison (non open source) pour pouvoir télécharger poids et code d’inférence. Meta les distribue en direct (réception d’une URL signée à utiliser avec un script de download), ainsi que sur Kaggle et Hugging Face. Il promet une disponibilité ultérieure chez AWS, Google Cloud, IBM (Watsonx), Microsoft (Azure), Databricks, Snowflake et NVIDIA (service NIM).

Le monde de Llama 3 8B s’arrête à mars 2023

Les deux modèles (8B et 70B) sont proposés en versions de base (saisie semi-automatique) et instruct (affinés pour le suivi d’instructions). Ils ne traitent et ne produisent que du texte, avec une fenêtre de 8k. Leurs connaissances s’arrêtent respectivement à mars et décembre 2023.

Presque 2000 tonnes de CO2 pour Llama 3 70B

L’entraînement s’est déroulé sur les deux clusters de 24 596 GPU que Meta avait officialisés il y a quelques semaines. Il a fallu 1,3 million d’heures GPU pour le modèle 8B, ce qui a émis 390 tonnes d’équivalent CO₂ (sur la base d’un TDP de 700 W pour les H100-80). Le modèle 70B a consommé 6,4 millions d’heures GPU, pour des émissions de 1900 t CO₂e.

Des modèles à peine multilingues

Le jeu de données d’entraînement regroupe 15 000 milliards de tokens. Soit 7 fois plus que celui de Llama 2. Meta se contente d’affirmer que l’ensemble provient de « sources publiques ». L’anglais domine (95 % du dataset). On trouve une trentaine d’autres langues… mais les modèles Llama 3 ne sont pour le moment pas conçus pour les utiliser en sortie.

Des données d’entraînement générées par des IA

Meta a employé, à plusieurs niveaux, des données synthétiques. Par exemple pour entraîner l’un des classifieurs de qualité de texte sur lequel reposent les modèles Llama 3.
Le fine-tuning s’est fait sur « des datasets publics » d’instructions, additionnés de 10 millions d’exemples annotés par des humains.

L’efficacité en inférence est similaire à celle de Llama 2 7B. Meta l’impute essentiellement à l’efficacité du tokenizer (jusqu’à 15 % de tokens en moins) et à l’usage de la méthode GQA (grouped-query attention).

Une tentative de benchmark « vie réelle »

Meta a évalué Llama 3 8B et 70B par rapport à des modèles de taille comparable. Ainsi, par de GPT-4 ou de Claude Opus dans ses benchmarks. Il en a créé un spécifique pour l’occasion. Avec 1800 prompts couvrant 12 cas d’usage (demande d’aide, brainstorming, classification, questions fermées, codage, écriture créative, extraction, jeu de rôle, questions ouvertes, raisonnement, réécriture, synthèse).

Sûreté/sécurité : Llama 3 cadré de toutes parts

Pour l’aspect sûreté/sécurité, Meta utilise notamment Llama Guard, un modèle de modération fondé sur Llama 2 7B. Passé en v2, il s’appuie désormais sur la taxonomie MLCommons. Cette dernière, encore à l’état expérimental, ouvre la voie à un benchmark standardisé pour évaluer la sécurité des IA.

Autre garde-fou intégré au système : la suite de tests CyberSecEval. La v1 évaluait deux éléments. D’une part, la génération de code non sécurisé. De l’autre, le potentiel de réalisation de cyberattaques. La v2 ajoute :

– Injection de prompts
On écrit des invites système définissant les règles de comportement d’un LLM. Puis on utilise un deuxième LLM pour juger si l’injection de prompts entraîne des violations de ces règles.

– Exploitation de vulnérabilités
On synthétise aléatoirement des programmes et on mesure la capacité d’un LLM à les exploiter.

– Usage abusif de l’interpréteur de code
On crée un ensemble de prompts invitant le LLM à cet usage abusif. Puis on vérifie les effets à l’aide d’un autre LLM « juge ».

Des LLM toujours plus gros ? Vers un Llama 3 400B

Meta dit avoir dans ses cartons des modèles Llama 3 à plus de 400 milliards de paramètres, multilingues et multimodaux. En attendant, il intègre les premiers modèles de cette famille dans l’assistant Meta AI. Celui-ci est disponible dans le champ de recherche sur Facebook, Instagram, WhatsApp et Messenger). On peut aussi y accéder sur une interface web « à la ChatGPT », y compris sans compte (une manière pour Meta d’obtenir du feedback utilisateur). Mais uniquement dans une douzaine de pays (Afrique du Sud, Australie, Canada, Ghana, Jamaïque, Malawi, Nigeria, Nouvelle-Zélande, Ouganda, Pakistan, Singapour, Zambie, Zimbabwe).

Illustration principale © Meta

Publié par :
Clément Bohic

Tags associés :

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Ce que Llama 3 dit de l'évolution des LLM

Le monde de Llama 3 8B s’arrête à mars 2023

Presque 2000 tonnes de CO2 pour Llama 3 70B

Des modèles à peine multilingues

Des données d’entraînement générées par des IA

Une tentative de benchmark « vie réelle »

Sûreté/sécurité : Llama 3 cadré de toutes parts

Des LLM toujours plus gros ? Vers un Llama 3 400B

Avec o3 et o4-mini, OpenAI mise sur une chaîne de pensée multimodale

De France Travail à la RATP, les leçons du "bac à sable" IA de la CNIL

OpenAI met GPT-4.5 en retrait : que retenir de cette parenthèse ?

Gouvernance des communications : qui se distingue sur ce marché [...]

AWS Summit : le RAG, au carrefour des stratégies GenAI

S’abonner

FFTO : Fiber To The Office ou la haute disponibilité [...]

L'UHD et la Transformation Numérique : Répondre aux [...]

Cybersécurité et digitalisation Comment protéger les [...]

Leader des services de réponse à incident de cybersécurité

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Le monde de Llama 3 8B s’arrête à mars 2023

Presque 2000 tonnes de CO2 pour Llama 3 70B

Des modèles à peine multilingues

Des données d’entraînement générées par des IA

Une tentative de benchmark « vie réelle »

Sûreté/sécurité : Llama 3 cadré de toutes parts

Des LLM toujours plus gros ? Vers un Llama 3 400B

S’abonner

Partager l'épisode