Mistral Small : ce qui change avec la version 2025 de ce LLM

La troisième génération du LLM Mistral Small fait son entrée. Avec DeepSeek en toile de fond, Mistral AI la positionne différemment des deux précédentes.

Publié par Clément Bohic le 31 janv. 2025 | mis à jour à 17:14

Lecture
3 min

Imprimer

Mistral Small, un peu plus ouvert ?

La dernière incarnation de ce LLM (mistral-small-2501) a ses poids publiés sous licence Apache 2.0*. Les précédentes (mistral-small-2402 et mistral-small-2409, lancées respectivement en février et septembre 2024) étaient couvertes par la licence Mistral Research, qui interdit l'usage commercial.

Mistral Small premier du nom était dit adapté aux "tâches qu'on peut effectuer en volume, comme la classification, le support client et la génération de texte". L'inférence coûtait alors 1,85 € par million de tokens entrants et 5,55 € par million de tokens sortants.
La deuxième génération apportait, selon un benchmark interne, une nette progression en appel de fonctions. Avec elle, les coûts d'inférence avaient diminué de 80 %.

Moins de couches, moins de latence

Avec 23,6 milliards de paramètres, Mistral Small 3 est d'une taille similaire à ses prédécesseurs, avec la même fenêtre de contexte (32k). Il utilise une nouvelle génération de tokenizer au vocabulaire plus large (le même que Pixtral Large et Mistral Large). Mistral AI affirme en avoir optimisé la latence, pour atteindre 150 tokens/s. Entre autres, en réduisant le nombre de couches, afin d'accélérer la propagation avant. Il le propose en versions base et instruct, comparant les performances à celles de GPT-4o mini (OpenAI), LLaMa 3.3 70B (Meta), Qwen2.5 32B (Alibaba) et Gemma-2 27B (Google).

Outre l'API Mistral AI (offre dite "la Plateforme"), on retrouve le modèle sur Fireworks AI, Hugging Face, Kaggle, Together AI et watsonx (à venir : Databricks, NVIDIA NIM, Groq, SageMaker et Snowflake). Il est également disponible dans la bibliothèque Ollama, avec le prompt système suivant :

Fais comme DeepSeek ?

Les prix sur l'API Mistral AI ont encore baissé, quoique moins sensiblement qu'entre les deux premières générations.
L'inférence coûte désormais 0,10 € par million de tokens entrants et 0,30 € par million de tokens sortants.
Le fine-tuning est à 0,18 € par million de tokens entrants et 0,54 € par million de tokens sortants. Soit les mêmes tarifs que pour Codestral, un modèle de taille similaire (22,2B) proposé sous une licence plus restrictive** (usage hors production)... mais qui apparaît comme potentiellement concurrent de Mistral Small 3. Et pour cause : ce dernier est désormais dit "entraîné spécifiquement pour les tâches de codage".

Mistral Small n'a pas fait l'objet d'un apprentissage par renforcement. Il est donc, dans son pipeline de formation, plus en amont que des modèles comme DeepSeek-R1. Mistral AI y voit justement une base intéressante pour faire émerger des capacités de raisonnement. Il en vante aussi les possibilités d'usage en local. Quantifié, le modèle tient sur une carte RTX 4090 ou sur un MacBook à 32 Go de mémoire.

* Les autres modèles de Mistral AI sous licence Apache 2.0 sont Mistral Large, Pixtral Large et Ministral 8B. Ainsi que trois modèles legacy (Mistral 7B, Mixtral 8x7B et Mixtral 8x22B).

** Il existe une variante de Codestral sous licence Apache 2.0. Elle est plus petite (7,3B) et utilise Mamba, une architecture alternative à Transformers. Les autres modèles de Mistral AI sous licence Apache 2.0

Illustration principale générée par IA

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Mistral Small : ce qui change avec la version 2025 de ce LLM

Moins de couches, moins de latence

Fais comme DeepSeek ?

Déployer l'IA à l'échelle : l'approche d'AXA, entre vision et [...]

Chez Eiffage, l'IA générative au service des métiers

Avec o3 et o4-mini, OpenAI mise sur une chaîne de pensée multimodale

OpenAI met GPT-4.5 en retrait : que retenir de cette parenthèse ?

De France Travail à la RATP, les leçons du "bac à sable" IA de la CNIL

S’abonner

Moderniser vos postes de travail grâce à [...]

Il y a des phrases qu’on ne veut plus entendre… [...]

Baromètre Abraxio 2025 : Maturité du pilotage de la DSI

FFTO : Fiber To The Office ou la haute disponibilité [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Moins de couches, moins de latence

Fais comme DeepSeek ?

S’abonner

Partager l'épisode