Mistral Small : ce qui change avec la version 2025 de ce LLM
La troisième génération du LLM Mistral Small fait son entrée. Avec DeepSeek en toile de fond, Mistral AI la positionne différemment des deux précédentes.

Mistral Small, un peu plus ouvert ?
La dernière incarnation de ce LLM (mistral-small-2501) a ses poids publiés sous licence Apache 2.0*. Les précédentes (mistral-small-2402 et mistral-small-2409, lancées respectivement en février et septembre 2024) étaient couvertes par la licence Mistral Research, qui interdit l'usage commercial.
Mistral Small premier du nom était dit adapté aux "tâches qu'on peut effectuer en volume, comme la classification, le support client et la génération de texte". L'inférence coûtait alors 1,85 € par million de tokens entrants et 5,55 € par million de tokens sortants.
La deuxième génération apportait, selon un benchmark interne, une nette progression en appel de fonctions. Avec elle, les coûts d'inférence avaient diminué de 80 %.
Lire aussi : L'offre commerciale de Mistral AI en cinq points
Moins de couches, moins de latence
Avec 23,6 milliards de paramètres, Mistral Small 3 est d'une taille similaire à ses prédécesseurs, avec la même fenêtre de contexte (32k). Il utilise une nouvelle génération de tokenizer au vocabulaire plus large (le même que Pixtral Large et Mistral Large). Mistral AI affirme en avoir optimisé la latence, pour atteindre 150 tokens/s. Entre autres, en réduisant le nombre de couches, afin d'accélérer la propagation avant. Il le propose en versions base et instruct, comparant les performances à celles de GPT-4o mini (OpenAI), LLaMa 3.3 70B (Meta), Qwen2.5 32B (Alibaba) et Gemma-2 27B (Google).
Outre l'API Mistral AI (offre dite "la Plateforme"), on retrouve le modèle sur Fireworks AI, Hugging Face, Kaggle, Together AI et watsonx (à venir : Databricks, NVIDIA NIM, Groq, SageMaker et Snowflake). Il est également disponible dans la bibliothèque Ollama, avec le prompt système suivant :
Fais comme DeepSeek ?
Les prix sur l'API Mistral AI ont encore baissé, quoique moins sensiblement qu'entre les deux premières générations.
L'inférence coûte désormais 0,10 € par million de tokens entrants et 0,30 € par million de tokens sortants.
Le fine-tuning est à 0,18 € par million de tokens entrants et 0,54 € par million de tokens sortants. Soit les mêmes tarifs que pour Codestral, un modèle de taille similaire (22,2B) proposé sous une licence plus restrictive** (usage hors production)... mais qui apparaît comme potentiellement concurrent de Mistral Small 3. Et pour cause : ce dernier est désormais dit "entraîné spécifiquement pour les tâches de codage".
Mistral Small n'a pas fait l'objet d'un apprentissage par renforcement. Il est donc, dans son pipeline de formation, plus en amont que des modèles comme DeepSeek-R1. Mistral AI y voit justement une base intéressante pour faire émerger des capacités de raisonnement. Il en vante aussi les possibilités d'usage en local. Quantifié, le modèle tient sur une carte RTX 4090 ou sur un MacBook à 32 Go de mémoire.
Lire aussi : Mistral AI ouvre la porte aux LLM embarqués
* Les autres modèles de Mistral AI sous licence Apache 2.0 sont Mistral Large, Pixtral Large et Ministral 8B. Ainsi que trois modèles legacy (Mistral 7B, Mixtral 8x7B et Mixtral 8x22B).
** Il existe une variante de Codestral sous licence Apache 2.0. Elle est plus petite (7,3B) et utilise Mamba, une architecture alternative à Transformers. Les autres modèles de Mistral AI sous licence Apache 2.0
Illustration principale générée par IA
Sur le même thème
Voir tous les articles Data & IA