DALL-E 3 ouvre la voie à un ChatGPT multimodal

L’UX, meilleur moyen de différencier DALL-E de la concurrence ? OpenAI prépare en tout cas une avancée dans ce domaine. La prochaine version de son modèle générateur d’images sera intégrée dans ChatGPT.

Les utilisateurs de ChatGPT Plus et Enterprise seront les premiers servis, au mois d’octobre. Sur le même principe que la génération d’images dans Bing Chat, la connexion avec DALL-E 3 se fera par l’API.

ChatGPT optimisera les prompts, nous promet-on. Il permettra par ailleurs une conception itérative (amélioration d’une image au fil de la discussion). Cela ne veut pas dire que DALL-E sera déterministe comme peut l’être un Stable Diffusion agrémenté de ControlNet.

OpenAI ne précise pas s’il faudra impérativement être « client ChatGPT » pour pouvoir accéder à DALL-E 3 sur l’API. Il assure, en revanche, que cette nouvelle version du modèle arrivera « au cours de l’automne » sur l’application web (labs.openai.com). Cette dernière supporte actuellement aussi bien la génération que l’édition d’images.

DALL-E et droits d’auteur : une (timide) avancée

Sur la base des créations « promotionnelles » d’OpenAI, DALL-E semble, d’une version à l’autre, mieux gérer le rendu de texte. Il paraît aussi capable de mieux coller aux consignes, y compris longues.

Un gain en précision, donc, mais pas forcément en esthétique, au dire des observateurs. En tout cas par rapport à Midjourney – qui a lui-même évolué, au fil des versions, dans son équilibre entre précision et esthétique.

Avec DALL-E 3 viennent des engagements en matière d’éthique. OpenAI explique notamment avoir renforcé son filet de sécurité autour des personnalités publiques. En toile de fond, entre autres, de fausses images d’arrestation de Donald Trump que Midjourney avait générées.

Autre garde-fou : DALL-3 est censé ne pas répondre aux requêtes qui impliquent d’imiter le style d’un artiste vivant.
Pour ce qui est de la gestion du copyright, on reste sur un mécanisme d’opt-out. Pour ne pas qu’on utilise leurs images, les créateurs sont invités soit à interdire l’analyse de leur site par GPTBot… soit à uploader les images concernées par formulaire.

À consulter en complément :

IA générative : Microsoft s’engage sur une protection juridique
OpenAI : gare à l’obsolescence
Utiliser ChatGPT Enterprise : combien ça coûte ?

Illustration principale © Dmytro – Adobe Stock