À quand le support de Codestral Mamba dans llama.cpp ? Mistral AI invite à garder un œil sur l’évolution de cette demande.
L’usage en local est effectivement l’une des promesses de ce LLM « spécial code ». À environ 7 milliards de paramètres, il est plus petit que le modèle Codestral 22B disponible depuis quelques semaines. Il s’en distingue aussi par sa licence (Apache 2.0)… et par son architecture, dont il tire son nom : Mamba.
Mamba a émergé il y a quelques mois pour pallier les limites des transformeurs lors du traitement de longues séquences. Dans ces scénarios, le mécanisme d’attention constitue un goulet d’étranglement, du fait qu’il utilise une forme de cache clé-valeur permettant à chaque token d’accéder aux précédents lors de la prédiction. Plus la taille de contexte augmente, plus l’empreinte mémoire et la latence augmentent, de façon quadratique.
Des méthodes telles que la fenêtre glissante et l’attention flash peuvent atténuer cet effet. Mamba va plus loin en remplaçant le composant d’attention par un mécanisme inspiré de la théorie du contrôle : les SSM (State Space Models). Avec eux, la montée en charge est linéaire. On permet aux paramètres SSM d’être fonction de l’input, de sorte qu’une sélection des informations à conserver s’opère au moment la mémorisation – et non au moment de la remémoration, comme c’est le cas pour les transformeurs.
L’architecture Mamba se prête à des cas d’usage impliquant un grand contexte et une mémoire de long terme. Ses deux créateurs – de Princeton et de Carnegie Mellon – l’ont notamment mise à l’épreuve sur la production d’audio et la modélisation d’ADN.
Pour ce qui est de générer du code, Mistral AI a choisi de comparer Codestral Mamba aux modèles suivants :
La fenêtre d’expérimentation s’est limitée à 256k tokens en dépit de la capacité théorique de Mamba à en gérer des millions. En ligne de mire, une fois encore, l’usage en local.
Llama.cpp prend déjà en charge Mamba… mais pas Mamba2, version sur laquelle repose Codestral 7B. En attendant, on peut déployer le modèle avec le SDK mistral-inference ou via TensorRT-LLM. On peut aussi le tester sur La Plateforme, le « bac à sable » de Mistral AI.
Illustration principale générée par IA
L’Autorité de la concurrence et des marchés (CMA) britannique ouvre une enquête sur les conditions…
Thomas Gourand est nommé Directeur Général pour la France. Il est chargé du développement de…
Pour dissuader le CISPE d'un accord avec Microsoft, Google aurait mis près de 500 M€…
Pour réduire la taille des mises à jour de Windows, Microsoft va mettre en place…
De l'organisation administrative à la construction budgétaire, la Cour des comptes pointe le fonctionnement complexe…
Sous la bannière SpreadSheetLLM, Microsoft propose un framework destiné à optimiser le traitement des feuilles…