Pixtral, un premier modèle multimodal pour Mistral AI

Mistral AI donne un premier aperçu de ses travaux sur la multimodalité en publiant Pixtral, un VLM sous licence Apache 2.0.

Publié par La rédaction le 11 sept. 2024 | Mis à jour le 2 avr. 2025 à 18:20

Lecture
2 min

Imprimer

Getting your Trinity Audio player ready...

À qui la première implémentation de Pixtral ?

Depuis quelques heures, c'est l'agitation dans la communauté Mistral AI, après la publication, sous licence Apache2, des poids de ce VLM (vision language model).

Acceptant les images en entrée, il est la première incarnation des travaux de l'entreprise sur la multimodalité.

Pour la création d'images, on repassera. De manière générale, très peu de modèles combinent les capacités « vision » et « génération ». GPT-4o en est capable, mais OpenAI a choisi de s'appuyer sur un back-end DALL-E.

Mistral just dropped a new vision multimodal model called Pixtral 12b!

Also downloaded params json - GeLU & 2D RoPE are used for the vision adapter. The vocab size also got larger - 131072

Also Mistral's latest tokenizer PR shows 3 extra new tokens (the image, the start & end). https://t.co/Kj8vy2egGy pic.twitter.com/BvBbp9q3zp

- Daniel Han (@danielhanchen) September 11, 2024

La bibliothèque mistral-common a été mise à jour pour permettre de tokeniser les images (encodage en dur, en base64 ou à partir d'URL).

Pixtral arrive sur un terrain où évoluent d'autres VLM Apache2 comme MiniCPM-V. Il vient aussi côtoyer une foule de modèles made in Chine, comme ceux de QwenLM.

À consulter en complément :

Pour son premeir LLM codeur ouvert, Mistral AI a choisi une architecture alternative
Silo AI, point d'ancrage européen pour Mistral AI
Safe Superintelligence Inc, la start-up qui vaut déjà 5 milliards de dollars
SpreadSheetLLM ou la promesse d'une GenAI plus à l'aise avec Excel
Le raisonnement inductif, capacité sous-estimée des LLM ?
Mozilla face au dilemme de la GenAI dans Firefox

Illustration principale générée par IA

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Pixtral, un premier modèle multimodal pour Mistral AI

Déployer l'IA à l'échelle : l'approche d'AXA, entre vision et [...]

Chez Eiffage, l'IA générative au service des métiers

Avec o3 et o4-mini, OpenAI mise sur une chaîne de pensée multimodale

De France Travail à la RATP, les leçons du "bac à sable" IA de la CNIL

OpenAI met GPT-4.5 en retrait : que retenir de cette parenthèse ?

S’abonner

Briser les barrières de la sécurité en entreprise

The Forrester Wave™: Cloud Workload Security, Q1 2024

Moderniser vos postes de travail grâce à [...]

Il y a des phrases qu’on ne veut plus entendre… [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

S’abonner

Partager l'épisode