Recherche

Un modèle spécial OCR chez Mistral AI

L'API Mistral AI donne désormais accès à un modèle d'OCR, complémentaire aux capacités de vision de certains LLM. Voici quelques éléments à son sujet.

Publié par le | mis à jour à
Lecture
2 min
  • Imprimer
Un modèle spécial OCR chez Mistral AI
© Patrick Helmholz - Adobe Stock

Quelles options pour faire de l'OCR (reconnaissance optique de caractères) sur l'API Mistral AI ?

Jusqu'ici, il fallait exploiter les capacités de vision de certains LLM, comme Pixtral. Désormais, il existe un modèle dédié à cette tâche : Mistral OCR. Mistral AI l'avait déjà implémenté sur Le Chat.

Mistral OCR gère les PDF et les images, fournis "en direct" ou par l'intermédiaire d'URL. Il en extrait le contenu en Markdown, en produisant soit texte et images entrelacés, soit uniquement du texte.

Un compagnon pour d'autres modèles Mistral AI

D'après les données d'évaluation que communique Mistral AI, la différence de performance avec des modèles comme Gemini 2.0 Flash et GPT-4o se constate en particulier sur le traitement des tableaux et des expressions mathématiques. Pour ce qui est du multilinguisme, l'écart le plus net est sur le chinois simplifié.

Tarification annoncée : 1 $ pour 1000 pages.
Avec Google Document AI, l'OCR est à 1,5 $ les 1000 pages, hors modules complémentaires. Au-delà de 5 millions de pages traitées, on passe à 0,60 $ les 1000.
Sur Azure, on parle en transactions. Pour l'OCR, le ticket d'entrée dans la région France est à 0,952 € les 1000 transactions. Les prix sont dégressifs, jusqu'à 0,381 € les 1000 au-delà de 100 millions de transactions.

Quelques notebooks sont disponibles pour expérimenter Mistral OCR. L'un d'entre eux concerne la compréhension de documents texte. Il utilise Mistral Small, qui, face à une requête contenant des URL, décide s'il a besoin de faire de l'OCR pour répondre.

Mistral AI


D'autres notebooks abordent l'inférence par lots et l'extraction structurée, ouvrant la voie à l'interaction en langage naturel avec le contenu de documents et à son utilisation dans des appels de fonction.

Illustration principale © Patrick Helmholz - Adobe Stock

Sur le même thème

Voir tous les articles Data & IA
Les Podcasts de Splunk
sponsorisé
Gestion de crises : les leçons d’un DSI

Livres Blancs

Voir tous les livres blancs

Vos prochains événements

Voir tous les événements

Voir tous les événements

S'abonner
au magazine
Se connecter
Retour haut de page