Mistral AI lance son premier LLM : ouvert, mais jusqu'où ?

Un premier LLM open source made in Mistral AI a fait son entrée. La start-up française ne communique pas tout à son sujet.

Publié par Clément Bohic le 28 sept. 2023 | Mis à jour le 3 oct. 2023 à 18:08

Lecture
3 min

Imprimer

Quand on développe un modèle d'IA open source, jusqu'où doit-on être « open » ? Mistral AI a fait ses arbitrages.

La start-up française vient de publier son premier LLM (poids et code d'inférence), sous licence Apache 2.0. Ses équipes promettent une communication « aussi ouverte que possible »... tout en posant des limites. Il n'est, par exemple, pas question d'entrer dans les détails du dataset d'entraînement. Timothée Lacroix et Arthur Mensch, respectivement DG et président, l'ont tour à tour rappelé hier sur le Discord Mistral AI.

Le sujet de la monétisation n'est pas non plus pour tout de suite. La team Mistral AI l'abordera quand elle « aura publié d'autres modèles ».

Le premier, Mistral 7B, a été formé sur un des supercalculateurs de l'initiative EuroHPC. En l'occurrence, Leonardo (voir notre article à son propos). Il est optimisé pour le résumé, la classification et la complétion de texte - ainsi que de code. Il en existe une déclinaison Instruct adaptée à la conversation et à l'exercice des questions-réponses.

Mistral 7B a du sang français, mais sa langue de prédilection est l'anglais. Mistral AI affirme cependant disposer des données adéquates pour aller vers le multilinguisme. Lors de la phase d'entraînement, 8 000 milliards de tokens étaient potentiellement disponibles, nous annonce-t-on.

Des choix d'architecture face à Llama-2

Mistral AI a fait deux grands choix d'architecture : utiliser le mécanisme du GQA (grouped-query attention) et une fenêtre d'attention glissante. Cette dernière permet de traiter des séquences plus longues tout en économisant du cache.

© Allen Institute for Artificial Intelligence

Au bout du compte, le modèle se révèle meilleur que Llama-2 13B sur tous les benchmarks que présente Mistral AI. Il dépasse Llama-1 34 B sur la plupart de ces mêmes tests et s'approche de Code Llama 7B sur la partie code.

L'écart est notable sur le raisonnement mathématique. Même si, en valeur absolue, les scores de Mistral 7B restent bas (13,1 % de précision sur MATH et 52,1 % sur GSM8K).

Sur MT Bench, la version Instruct est presque au niveau de Vicuna-13B, avec une fenêtre de contexte deux fois plus petite (8k).

Une image Docker est disponible pour déployer un serveur vLLM. L'API est calquée sur celle d'OpenAI, à quelques fonctions près (vLLM doit encore implémenter, entre autres, logit_bias).

Dans l'idéal, on réservera 24 Go de vRAM à Mistral 7B pour l'inférence en semi-précision (FP16).

Détail des benchmarks

MMLU (multiples tâches de traitement du langage) : 5-shot
Connaissances : 5-shot sur NaturalQuestions et TriviaQA
Raisonnement : 0-shot sur Hellaswag, Winogrande, PIQA, SIQA, OpenbookQA, ARC-Easy, ARC-Challenge et CommonSenseQA
Compréhension écrite : 0-shot sur BooIQ et QuAC
AGI : 3-5 shot sur AGI Eval (QCM en anglais uniquement)
Mathématiques : 8-shot sur GSM8K maj@8 et 4-shot sur MATH maj@4
BBH (multiples exercices de compréhension) : 3-shot
Code : 0-shot sur HumanEval et 3-shot sur MBPP

À consulter en complément :

A=B donc B=A ? Pour les LLM, ça ne coule pas de source
Sécurité des IA génératives : l'OWASP esquisse un top 10
IA : le plan de Xavier Niel pour devenir un « grand en Europe »
DALL-E 3 ouvre la voie à un ChatGPT multimodal

Publié par :
Clément Bohic

Tags associés :

#MISTRAL AI

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Mistral AI lance son premier LLM : ouvert, mais jusqu'où ?

Des choix d'architecture face à Llama-2

Déployer l'IA à l'échelle : l'approche d'AXA, entre vision et [...]

Chez Eiffage, l'IA générative au service des métiers

Avec o3 et o4-mini, OpenAI mise sur une chaîne de pensée multimodale

De France Travail à la RATP, les leçons du "bac à sable" IA de la CNIL

OpenAI met GPT-4.5 en retrait : que retenir de cette parenthèse ?

S’abonner

Briser les barrières de la sécurité en entreprise

Symphony 25 : Sécuriser du code au cloud jusqu'au SOC [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Des choix d'architecture face à Llama-2

S’abonner

Partager l'épisode