Pour gérer vos consentements :

DALL·E : le dernier-né d’OpenAI impressionne

Des résultats époustouflants… avec une méthode non optimisée. Dans la communauté du machine learning, on est partagé à propos de DALL·E.

Ce modèle génératif de type Transformer est le dernier-né d’OpenAI. Dérivé du modèle généraliste GPT-3, il doit son nom au robot WALL-E et à Salvador Dalí. Et pour cause : il crée des images à partir de texte, à la façon d’un moteur de rendu 3D pilotable en langage naturel.

À la base de DALL·E, il y a un important jeu de données d’entraînement : des centaines de millions d’images assorties de légendes. Le modèle peut travailler uniquement à partir de texte, mais il est possible de le guider avec des images. Il représente l’ensemble sous la forme de tableaux de jetons. En d’autres termes, de symboles comparables à ce que sont pour nous les lettres de l’alphabet. Chacun couvre une grille de 8 pixels par 8.

OpenAI a mis à l’épreuve cinq capacités en particulier :

  • Modifier les attributs et la quantité d’un objet
  • En gérer plusieurs
  • Les modéliser en perspective
  • Travailler leur structure interne et externe
  • Tenir compte du contexte spatiotemporel

Sur le premier point, on nous donne trois exemples de créations : une horloge verte pentagonale, un cube au revêtement « en porc-épic » et des verres sur une table.

Consigne : « une horloge verte pentagonale, une horloge verte en forme de pentagone »

DALL·E offre des résultats convaincants quand il s’agit d’associer des textures à des objets. C’est plus aléatoire quand il s’agit d’en modifier la forme (illustration pour un cadre photo heptagonal ou un panneau stop pentagonal). Les mots à plusieurs sens lui posent par ailleurs problème.

« un cube fait de porc-épic, un cube avec la texture d’un porc-épic »

La gestion de multiples objets se complique vite, plus encore s’il existe entre eux des relations spatiales. L’exercice de l’empilement de cubes en témoigne. Sans qu’on puisse expliquer pleinement le comportement de DALL·E. Entre autres, pourquoi il a plus de mal à poser un gros objet sur un petit que l’inverse.

« un petit bloc rouge reposant sur un grand bloc vert »

Sur la partie perspective, DALL·E démontre de solides capacités, qu’il s’agisse de générer un buste d’Homère ou un capybara en voxels assis dans un champ. Il prend généralement bien en compte les effets de lumière et les distorsions comme le fish-eye ou le panorama sphérique. C’est plus compliqué lorsqu’il s’agit de créer un reflet, sauf si le miroir se trouve au sol.

« un cube blanc qui regarde son reflet dans un miroir, un cube blanc qui se regarde dans un miroir »

Résultats également convaincants sur la représentation des structures internes et externes. En tout cas pour ce qui est des noix et du corail-cerveau.
Concernant l’adaptation au contexte spatiotemporel, là encore, c’est la quantité d’informations à traiter qui pose problème. Par exemple quand on demande à DALL·E de créer une devanture de magasin et d’y apposer un long texte. Même si, de manière générale, le modèle sait adapter le style au support… sans toutefois gérer pleinement les tons d’une même couleur.

« une devanture de magasin avec le mot ‘openai’ écrit dessus […] »
DALL·E, affirme OpenAI, possède aussi des aptitudes à la représentation anthropomorphique. Et plus globalement au « transfert » d’activités humaines sur des animaux et des objets. Preuve en est d’une modélisation « cartoon » : un bébé radis en tutu promenant un chien.

« une illustration de bébé radis en tutu promenant un chien »

Comme GPT-3, DALL·E présente des capacités de raisonnement instantané, c’est-à-dire sans entraînement spécifique. OpenAI les illustre avec la reproduction d’une photo de chat sous la forme d’un croquis et l’ajout de caractères sur une image de théière.

« le même chat qu’en haut sous la forme d’un croquis en bas »

Les capacités de raisonnement de DALL·E sont aussi, dans une certaine mesure, géométriques et géographiques. Ces dernières semblent les plus développées, sans être exemptes de stéréotypes (par exemple sur les thématiques nourriture et vie sauvage).

Illustration principale © artinspiring – Adobe Stock

Recent Posts

Pour son premier LLM codeur ouvert, Mistral AI choisit une architecture alternative

Pour développer une version 7B de son modèle Codestral, Mistral AI n'a pas utilisé de…

4 heures ago

Microsoft x Inflection AI : l’autorité de la concurrence britannique lance son enquête

L’Autorité de la concurrence et des marchés (CMA) britannique ouvre une enquête sur les conditions…

7 heures ago

Thomas Gourand, nouveau Directeur Général de Snowflake en France

Thomas Gourand est nommé Directeur Général pour la France. Il est chargé du développement de…

9 heures ago

Accord Microsoft-CISPE : comment Google a tenté la dissuasion

Pour dissuader le CISPE d'un accord avec Microsoft, Google aurait mis près de 500 M€…

9 heures ago

Vers des mises à jour cumulatives intermédiaires pour Windows

Pour réduire la taille des mises à jour de Windows, Microsoft va mettre en place…

10 heures ago

RH, finances, stratégie… Les complexités de la Dinum

De l'organisation administrative à la construction budgétaire, la Cour des comptes pointe le fonctionnement complexe…

1 jour ago