Ignite 2023 - Microsoft et l'IA : coup d'oeil sur le traitement d'images

Publié par Clément Bohic le 16 nov. 2023 - mis à jour à 15:56

Aperçu, à la faveur de la conférence Microsoft Ignite 2023, de l'évolution des services de traitement des images sur Azure.

Comment l'offre de services de traitement du langage naturel se développe-t-elle chez Microsoft ? Dans le cadre de la conférence Ignite 2023, nous avons fait un bilan.
En voici un autre, axé sur la discipline de la vision par ordinateur.

Sur Video Indexer

[Ce service fait partie de l'offre Azure AI, orientée développeurs par opposition à Azure ML, axé data scientists. Il s'appuie sur une trentaine d'IA pour traiter les vidéos.]

Video Indexer fait partie des services que Microsoft propose d'exécuter en périphérie, à travers Azure Arc. Il faudra plus précisément attendre le 15 décembre 2023. À partir de là, on pourra expérimenter cette « version edge » qui reposera sur un cluster AKS. Les fonctionnalités disponibles : transcription, traduction/sous-titrage, extraction de scènes, OCR, détection d'objets... et intégration de modèles tiers. En cas de manque de ressources, les traitements déborderont dans le cloud.

Autre nouveauté de Video Indexer mise en avant à l'occasion de l'Ignite 2023 : la possibilité d'ajouter des étiquettes personnalisées et du texte libre en guise de métadonnées. Ces éléments seront pris en compte lors de la recherche.

À noter également, une bêta en accès limité pour des fonctionnalités additionnelles de personnalisation du modèle People - destiné à reconnaître des personnes spécifiques.

- Un « score de qualité » basé sur le nombre d'images utilisées pour l'annotation
- La possibilité de définir, au niveau utilisateur, un autre modèle par défaut que le standard
- Le regroupement des images non identifiées mais susceptibles de représenter une même personne (illustration ci-dessous)

Sur AI Vision

[Cette gamme regroupe quatre services, sous les marques OCR, Analyse d'image, Visage et Analyse spatiale.]

Une fonctionnalité déjà présente dans Windows Hello fait son apparition sur l'API Visage : la détection de présence physique. Objectif : s'assurer, lors d'une reconnaissance faciale, qu'on est bien en présence d'une personne.

Autre API qui évolue : celle dédiée à l'analyse d'image. Elle passe en v4 avec, entre autres capacités, le légendage par objet. Sous le capot, il y a Florence, un LLM made in Microsoft.

Sous la marque Video Retrieval, Microsoft introduit un système d'indexation vectorielle de vidéos. Il alimentera notamment le modèle GPT-4 « avec vision », promis en bêta publique « pour bientôt » sur Azure OpenAI Service.

Sur Azure OpenAI Service, il y a aussi du nouveau en matière de « sûreté de l'IA ». Dont la possibilité de configurer la sensibilité de tous les filtres de contenu.

Un système de détection d'anomalies liées à l'injection de prompts est en bêta publique. Idem pour la détection d'éléments « protégés ». Optionnelle, elle empêche les IA de produire des contenus correspondant à deux index, dont un fondé sur les projets GitHub publics.

S'y ajouteront « bientôt » les filtres asynchrones. La modération pourra donc s'effectuer « au fil de l'eau ». Et le contenu, s'afficher progressivement, plutôt que d'attendre qu'il soit complètement généré pour ensuite le modérer.

La rédaction vous recommande

IA et copyright : la perspective d'une norme IETF réconciliatrice

{ Tribune Expert } - Cybersécurité : l'IA au chevet du secteur de la santé

IA générative : ChatGPT conserve la plus grande popularité malgré la concurrence