Pixtral, un premier modèle multimodal pour Mistral AI

Mistral AI Pixtral

Mistral AI donne un premier aperçu de ses travaux sur la multimodalité en publiant Pixtral, un VLM sous licence Apache 2.0.

À qui la première implémentation de Pixtral ?

Depuis quelques heures, c’est l’agitation dans la communauté Mistral AI, après la publication, sous licence Apache2, des poids de ce VLM (vision language model).

Acceptant les images en entrée, il est la première incarnation des travaux de l’entreprise sur la multimodalité.

Pour la création d’images, on repassera. De manière générale, très peu de modèles combinent les capacités « vision » et « génération ». GPT-4o en est capable, mais OpenAI a choisi de s’appuyer sur un back-end DALL-E.

La bibliothèque mistral-common a été mise à jour pour permettre de tokeniser les images (encodage en dur, en base64 ou à partir d’URL).

Pixtral arrive sur un terrain où évoluent d’autres VLM Apache2 comme MiniCPM-V. Il vient aussi côtoyer une foule de modèles made in Chine, comme ceux de QwenLM.

À consulter en complément :

Pour son premeir LLM codeur ouvert, Mistral AI a choisi une architecture alternative
Silo AI, point d’ancrage européen pour Mistral AI
Safe Superintelligence Inc, la start-up qui vaut déjà 5 milliards de dollars
SpreadSheetLLM ou la promesse d’une GenAI plus à l’aise avec Excel
Le raisonnement inductif, capacité sous-estimée des LLM ?
Mozilla face au dilemme de la GenAI dans Firefox

Illustration principale générée par IA