Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Découvrez le Focus Sase

Pixtral, un premier modèle multimodal pour Mistral AI

Mistral AI donne un premier aperçu de ses travaux sur la multimodalité en publiant Pixtral, un VLM sous licence Apache 2.0.

Publié par La rédaction le 11 sept. 2024 | Mis à jour le 2 avr. 2025 à 18:20

Lecture
2 min

Imprimer

Getting your Trinity Audio player ready...

À qui la première implémentation de Pixtral ?

Depuis quelques heures, c'est l'agitation dans la communauté Mistral AI, après la publication, sous licence Apache2, des poids de ce VLM (vision language model).

Acceptant les images en entrée, il est la première incarnation des travaux de l'entreprise sur la multimodalité.

Pour la création d'images, on repassera. De manière générale, très peu de modèles combinent les capacités « vision » et « génération ». GPT-4o en est capable, mais OpenAI a choisi de s'appuyer sur un back-end DALL-E.

Mistral just dropped a new vision multimodal model called Pixtral 12b!

Also downloaded params json - GeLU & 2D RoPE are used for the vision adapter. The vocab size also got larger - 131072

Also Mistral's latest tokenizer PR shows 3 extra new tokens (the image, the start & end). https://t.co/Kj8vy2egGy pic.twitter.com/BvBbp9q3zp

- Daniel Han (@danielhanchen) September 11, 2024

La bibliothèque mistral-common a été mise à jour pour permettre de tokeniser les images (encodage en dur, en base64 ou à partir d'URL).

Pixtral arrive sur un terrain où évoluent d'autres VLM Apache2 comme MiniCPM-V. Il vient aussi côtoyer une foule de modèles made in Chine, comme ceux de QwenLM.

À consulter en complément :

Pour son premeir LLM codeur ouvert, Mistral AI a choisi une architecture alternative
Silo AI, point d'ancrage européen pour Mistral AI
Safe Superintelligence Inc, la start-up qui vaut déjà 5 milliards de dollars
SpreadSheetLLM ou la promesse d'une GenAI plus à l'aise avec Excel
Le raisonnement inductif, capacité sous-estimée des LLM ?
Mozilla face au dilemme de la GenAI dans Firefox

Illustration principale générée par IA

Gouvernance des communications : qui se distingue sur ce marché [...]

Par Clément Bohic le 14 avr. 2025

6 min.

AWS Summit : le RAG, au carrefour des stratégies GenAI

Par Clément Bohic le 11 avr. 2025

{ Tribune Expert } - La voie vers une véritable IA open source

Par Rémy Mandon * le 11 avr. 2025

MLPerf : la quête de benchmarks IA représentatifs

Par Clément Bohic le 11 avr. 2025

Apps mobiles : du nouveau dans les recommandations de la CNIL

Par Clément Bohic le 8 avr. 2025

Livres Blancs #cloud

CELESTE

FFTO : Fiber To The Office ou la haute disponibilité [...]

L’utilisation des services cloud et de SaaS (Software as a Service) est devenu un impératif et s’inscrit dans une [...]

Télécharger

CELESTE

L'UHD et la Transformation Numérique : Répondre aux [...]

Dans un paysage où la transformation numérique est devenue incontournable, les entreprises sont confrontées à une [...]

Télécharger

Voir tous les livres blancs

Vos prochains événements

Voir tous les événements

5 juin 2025

Le grand dîner de Gala de la Communauté

Organisé par silicon.fr

Inscrivez-vous

3 juillet 2025

La Matinale Silicon - Zéro Trust

Organisé par silicon.fr

Inscrivez-vous

7 novembre 2024

La MasterClass Silicon - NIS2

Organisé par silicon.fr

REVIVRE EN IMAGES

Voir tous les événements

Inscrivez-vous à la Newsletter pour recevoir les dernières actualités

Abonnez-vous au magazine Silicon et profitez de contenus exclusifs !

Boostez votre expertise professionnelle en accédant aux informations clés de votre domaine.