DALL·E : le dernier-né d’OpenAI impressionne

OpenAI a développé, sur la base de son modèle GPT-3, un générateur d’images nommé DALL·E. Quelles en sont les caractéristiques ?

Des résultats époustouflants… avec une méthode non optimisée. Dans la communauté du machine learning, on est partagé à propos de DALL·E.

Ce modèle génératif de type Transformer est le dernier-né d’OpenAI. Dérivé du modèle généraliste GPT-3, il doit son nom au robot WALL-E et à Salvador Dalí. Et pour cause : il crée des images à partir de texte, à la façon d’un moteur de rendu 3D pilotable en langage naturel.

À la base de DALL·E, il y a un important jeu de données d’entraînement : des centaines de millions d’images assorties de légendes. Le modèle peut travailler uniquement à partir de texte, mais il est possible de le guider avec des images. Il représente l’ensemble sous la forme de tableaux de jetons. En d’autres termes, de symboles comparables à ce que sont pour nous les lettres de l’alphabet. Chacun couvre une grille de 8 pixels par 8.

OpenAI a mis à l’épreuve cinq capacités en particulier :

  • Modifier les attributs et la quantité d’un objet
  • En gérer plusieurs
  • Les modéliser en perspective
  • Travailler leur structure interne et externe
  • Tenir compte du contexte spatiotemporel

Sur le premier point, on nous donne trois exemples de créations : une horloge verte pentagonale, un cube au revêtement « en porc-épic » et des verres sur une table.

horloge pentagonale
Consigne : « une horloge verte pentagonale, une horloge verte en forme de pentagone »

DALL·E offre des résultats convaincants quand il s’agit d’associer des textures à des objets. C’est plus aléatoire quand il s’agit d’en modifier la forme (illustration pour un cadre photo heptagonal ou un panneau stop pentagonal). Les mots à plusieurs sens lui posent par ailleurs problème.

cube porc-épic
« un cube fait de porc-épic, un cube avec la texture d’un porc-épic »

La gestion de multiples objets se complique vite, plus encore s’il existe entre eux des relations spatiales. L’exercice de l’empilement de cubes en témoigne. Sans qu’on puisse expliquer pleinement le comportement de DALL·E. Entre autres, pourquoi il a plus de mal à poser un gros objet sur un petit que l’inverse.

cube rouge
« un petit bloc rouge reposant sur un grand bloc vert »

Sur la partie perspective, DALL·E démontre de solides capacités, qu’il s’agisse de générer un buste d’Homère ou un capybara en voxels assis dans un champ. Il prend généralement bien en compte les effets de lumière et les distorsions comme le fish-eye ou le panorama sphérique. C’est plus compliqué lorsqu’il s’agit de créer un reflet, sauf si le miroir se trouve au sol.

cube blanc
« un cube blanc qui regarde son reflet dans un miroir, un cube blanc qui se regarde dans un miroir »

Résultats également convaincants sur la représentation des structures internes et externes. En tout cas pour ce qui est des noix et du corail-cerveau.
Concernant l’adaptation au contexte spatiotemporel, là encore, c’est la quantité d’informations à traiter qui pose problème. Par exemple quand on demande à DALL·E de créer une devanture de magasin et d’y apposer un long texte. Même si, de manière générale, le modèle sait adapter le style au support… sans toutefois gérer pleinement les tons d’une même couleur.

devanture magasin
« une devanture de magasin avec le mot ‘openai’ écrit dessus […] »
DALL·E, affirme OpenAI, possède aussi des aptitudes à la représentation anthropomorphique. Et plus globalement au « transfert » d’activités humaines sur des animaux et des objets. Preuve en est d’une modélisation « cartoon » : un bébé radis en tutu promenant un chien.

radis
« une illustration de bébé radis en tutu promenant un chien »

Comme GPT-3, DALL·E présente des capacités de raisonnement instantané, c’est-à-dire sans entraînement spécifique. OpenAI les illustre avec la reproduction d’une photo de chat sous la forme d’un croquis et l’ajout de caractères sur une image de théière.

croquis chat DALL-E
« le même chat qu’en haut sous la forme d’un croquis en bas »

Les capacités de raisonnement de DALL·E sont aussi, dans une certaine mesure, géométriques et géographiques. Ces dernières semblent les plus développées, sans être exemptes de stéréotypes (par exemple sur les thématiques nourriture et vie sauvage).

Illustration principale © artinspiring – Adobe Stock