Un modèle spécial OCR chez Mistral AI
L'API Mistral AI donne désormais accès à un modèle d'OCR, complémentaire aux capacités de vision de certains LLM. Voici quelques éléments à son sujet.

Quelles options pour faire de l'OCR (reconnaissance optique de caractères) sur l'API Mistral AI ?
Jusqu'ici, il fallait exploiter les capacités de vision de certains LLM, comme Pixtral. Désormais, il existe un modèle dédié à cette tâche : Mistral OCR. Mistral AI l'avait déjà implémenté sur Le Chat.
Mistral OCR gère les PDF et les images, fournis "en direct" ou par l'intermédiaire d'URL. Il en extrait le contenu en Markdown, en produisant soit texte et images entrelacés, soit uniquement du texte.
Lire aussi : CMA CGM devient un gros client de Mistral AI
Un compagnon pour d'autres modèles Mistral AI
D'après les données d'évaluation que communique Mistral AI, la différence de performance avec des modèles comme Gemini 2.0 Flash et GPT-4o se constate en particulier sur le traitement des tableaux et des expressions mathématiques. Pour ce qui est du multilinguisme, l'écart le plus net est sur le chinois simplifié.
Tarification annoncée : 1 $ pour 1000 pages.
Avec Google Document AI, l'OCR est à 1,5 $ les 1000 pages, hors modules complémentaires. Au-delà de 5 millions de pages traitées, on passe à 0,60 $ les 1000.
Sur Azure, on parle en transactions. Pour l'OCR, le ticket d'entrée dans la région France est à 0,952 € les 1000 transactions. Les prix sont dégressifs, jusqu'à 0,381 € les 1000 au-delà de 100 millions de transactions.
Quelques notebooks sont disponibles pour expérimenter Mistral OCR. L'un d'entre eux concerne la compréhension de documents texte. Il utilise Mistral Small, qui, face à une requête contenant des URL, décide s'il a besoin de faire de l'OCR pour répondre.
D'autres notebooks abordent l'inférence par lots et l'extraction structurée, ouvrant la voie à l'interaction en langage naturel avec le contenu de documents et à son utilisation dans des appels de fonction.
Illustration principale © Patrick Helmholz - Adobe Stock
Sur le même thème
Voir tous les articles Data & IA