Pour gérer vos consentements :

Point·E : que vaut le dernier-né d’OpenAI ?

Générer des images à partir de descriptions en langage naturel ? Dans la boîte à outils d’OpenAI, Dall·E remplit cette fonction. Mais qu’en est-il de la création d’objets 3D ? Il faudra, semble-t-il, compter sur Point·E.

OpenAI ne propose pas encore, pour Point·E, d’API ou d’interface « à la ChatGPT ». Mais il a publié le code, les différents modèles qui composent cette IA générative et quelques notebooks pour la mettre en œuvre.

Pourquoi avoir choisi ce nom ? Il s’agit d’un raccourci pour « point clouds efficiently ». Cela reflète le fonctionnement de Point·E : il est censé générer « efficacement » des nuages de points 3D.
L’idée n’est donc pas de délivrer de la haute qualité, mais un compromis nécessitant significativement moins de ressources que des solutions comme DreamFusion. L’ordre de grandeur est en minutes, voire secondes-GPU, et non en heures.

Plutôt que d’entraîner un modèle génératif directement sur des paires texte/objet ou d’exploiter un modèle de conversion texte-image affiné sur de la 3D, OpenAI a combiné les deux approches. Dans un processus en trois étapes :

– Transformation du texte en une image synthétique
Base : un modèle GLIDE à plusieurs milliards de paramètres entraîné pendant plusieurs cycles sur des millions d’objets 3D. Essentiellement tirés de son jeu de données d’origine (95 %), le reste des rendus ayant été élaborés spécifiquement pour le projet.

– À partir de cette image, production d’un nuage de 1024 points
Base : un transformeur de type diffusion, insensible aux permutations (l’interversion de pixels n’affecte pas les performances) et sans éléments d’architecture spécifiques à la 3D – ce qui la simplifie. Il reprend un framework issu de travaux antérieurs et y ajoute notamment le RGB.

– Suréchantillonnage à 4096 points
Base : un modèle similaire au précédent ; plus petit néanmoins, et qui ajoute en fait 3072 points aux existants.

Le compromis Point·E

Pour benchmarker Point·E, ses créateurs ont choisi, en particulier, de s’appuyer sur un autre modèle made in OpenAI, dédié à cette tâche : CLIP. Et sur une métrique dérivée, sous la forme d’un taux de précision R.

Principal constat : la précision augmente avec le nombre de paramètres et de cycles d’entraînement. Point·E présente donc une certaine capacité de mise à l’échelle. À condition de ne sauter aucune étape du processus. En particulier la première (texte -> image), comme en témoigne, ci-dessous, la courbe marron.

Il arrive que Point·E estime mal les proportions d’un objet. Les parties cachées peuvent aussi lui poser des problèmes.

Par rapport aux références comme DreamFields et DreamFusion, l’écart de performance est notable. Mais sur un GPU NVIDIA V100, la conception des nuages de points ne prend pas plus d’une minute et demie.

DALL·E et Point·E, les meilleurs amis ?

Utiliser DALL·E pour la première étape ne produit pas toujours de bons résultats. Parmi les facteurs explicatifs, sa tendance à ajouter des ombres, alors que le jeu de données « spécial Point·E » se veut précisément neutre sur ce point – et plus globalement sur l’éclairage, normalisé.

Point·E n’est pas totalement « dans les choux » si on le fait passer directement du texte à la 3D. Il a toutefois du mal si on lui demande d’associer plusieurs concepts.

Illustration principale © Jakub Jirsk – Fotolia

Recent Posts

Pour son premier LLM codeur ouvert, Mistral AI choisit une architecture alternative

Pour développer une version 7B de son modèle Codestral, Mistral AI n'a pas utilisé de…

4 heures ago

Microsoft x Inflection AI : l’autorité de la concurrence britannique lance son enquête

L’Autorité de la concurrence et des marchés (CMA) britannique ouvre une enquête sur les conditions…

7 heures ago

Thomas Gourand, nouveau Directeur Général de Snowflake en France

Thomas Gourand est nommé Directeur Général pour la France. Il est chargé du développement de…

9 heures ago

Accord Microsoft-CISPE : comment Google a tenté la dissuasion

Pour dissuader le CISPE d'un accord avec Microsoft, Google aurait mis près de 500 M€…

9 heures ago

Vers des mises à jour cumulatives intermédiaires pour Windows

Pour réduire la taille des mises à jour de Windows, Microsoft va mettre en place…

10 heures ago

RH, finances, stratégie… Les complexités de la Dinum

De l'organisation administrative à la construction budgétaire, la Cour des comptes pointe le fonctionnement complexe…

1 jour ago