De l'image au son, OpenAI met le cap sur le multimodal

La multimodalité se développe dans l’offre d’OpenAI. Le traitement de la vidéo en reste toutefois absent… et l’audio reste à part.

Publié par Clément Bohic le 7 nov. 2023 | Mis à jour le 10 nov. 2023 à 16:12

Lecture
4 min

Imprimer

« DALL-E 3 ouvre la voie à un ChatGPT multimodal. » Ainsi avions-nous réagi, il y a quelques semaines, lorsque OpenAI avait annoncé son intention d’intégrer le premier dans le second. C’est officiellement fait depuis mi-octobre.

Restait à ouvrir l’accès à DALL-E 3 par API. La conférence développeurs organisée ce 6 novembre a été le théâtre de ce lancement.

De DALL-E 2 à DALL-E 3 : ce qui change sur l’API

DALL-E 3 ne permet, pour le moment, que de créer des images (pour en éditer ou en créer des variations, on en reste à DALL-E 2).

Avec lui arrivent de nouveaux paramètres. D’un côté, pour définir le style (natural ou vivid ; ce dernier, tendant vers l’hyperréalisme, est le mode par défaut, comme d’ailleurs sur ChatGPT). De l’autre, pour régler la qualité (standard ou HD ; illustration ci-dessous sur la production de logos).

Autre différence : la taille des images produites. Le format carré reste une option (à 1024 pixels de côté, soit le maximum que permet DALL-E 2), mais le format 3:2 est désormais accepté (1024 x 1792 ou 1792 x 1024 pixels).

Alors que DALL-E 2 peut générer jusqu’à dix images par requête, DALL-E 3 ne peut en générer qu’une. Contrepartie : en back-office, les prompts passent par GPT-4, qui les enrichit (une option non désactivable en l’état).

GPT-4 doté d’une vision… expérimentale

En matière de gestion des images, il y a aussi des avancées sur GPT-4. Il existe désormais une version expérimentale spécialisée accessible sur l’API Chat Completions. Sur les autres tâches, elle conserve le même niveau de performance que le modèle d’origine, assure OpenAI.

Pour fournir les images, deux solutions : par URL ou en base64 (au niveau des messages user, system et/ou assistant). On peut en transmettre plusieurs par requête. Taille maximale : 20 Mo. Formats acceptés : jpeg, PNG, WebP et GIF non animé.

GPT-4 n’exploite pas les métadonnées. On peut contrôler son niveau de fidélité, sur deux échelons :

– Low
Le modèle travaille sur une version de l’image de 512 pixels de côté. Il la représente avec un budget de 65 tokens.

– High
L’image est mise à l’échelle en deux temps. D’abord pour ne pas dépasser 2048 pixels de longueur, puis 768 de largeur. Chaque carré de 512 pixels de côté consomme 170 tokens ; il faut en ajouter 85 pour l’image dans son ensemble.

L’API étant sans état, elle ne conserve pas les images entre les requêtes. Il n’est pas encore possible d’affiner le modèle. Il a du mal, entre autres, avec :

– Alphabets non latins
– Images pivotées ou renversées
– Raisonnement spatial
– Panoramas et fish-eye
– Décompte d’objets
– Texte et graphiques où couleurs et styles varient

Il est prévu d’intégrer ces fonctionnalités dans GPT-4 Turbo une fois qu’elle seront stabilisées. Le modèle, lui aussi en preview, bénéficie d’une fenêtre de contexte élargie (128k tokens) et d’une base de connaissance étendue jusqu’à avril 2023.

Avec GPT-4 Turbo arrive aussi un « mode JSON ». Activable par l’intermédiaire du paramètre response_format, il « force » le modèle à produire du JSON syntaxiquement valide.
Autre nouveau paramètre : seed. Il permet de tendre vers des résultats reproductibles en rendant les modèles plus déterministes. Son efficacité peut se vérifier avec le champ de réponse system_fingerprint, qui représente la configuration en back-end.

Reconnaissance et synthèse vocales encore à part

OpenAI a un modèle spécifique à la reconnaissance vocale : Whisper. Il vient d’en publier la v3. Son intégration sur l’API se fera « dans un avenir proche ». Il n’y aura pas de différence avec la version ouverte (sous licence MIT), sinon une garantie de rapidité des traitements.

Pour la synthèse vocale, OpenAI propose désormais une API. Avec deux variantes de modèle (tts-1, plus rapide et tts-1-hd, plus qualitatif) et un choix entre six voix. Format de sortie par défaut : MP3 (supporte aussi Opus, AAC et FLAC). L’audio peut se lancer avant que le fichier complet soit généré.

Illustration principale © Dmytro – Adobe Stock

Publié par :
Clément Bohic

Tags associés :

#GPT-4

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

De l'image au son, OpenAI met le cap sur le multimodal

De DALL-E 2 à DALL-E 3 : ce qui change sur l’API

GPT-4 doté d’une vision… expérimentale

Reconnaissance et synthèse vocales encore à part

Chez Eiffage, l'IA générative au service des métiers

Avec o3 et o4-mini, OpenAI mise sur une chaîne de pensée multimodale

De France Travail à la RATP, les leçons du "bac à sable" IA de la CNIL

OpenAI met GPT-4.5 en retrait : que retenir de cette parenthèse ?

Gouvernance des communications : qui se distingue sur ce marché [...]

S’abonner

FFTO : Fiber To The Office ou la haute disponibilité [...]

L'UHD et la Transformation Numérique : Répondre aux [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

De DALL-E 2 à DALL-E 3 : ce qui change sur l’API

GPT-4 doté d’une vision… expérimentale

Reconnaissance et synthèse vocales encore à part

S’abonner

Partager l'épisode