Pour gérer vos consentements :

Stable Video Diffusion, le concurrent de Sora, adapté au rendu 3D

Comment créer un modèle générateur d’objets 3D ? Stability AI a exploré plusieurs pistes.

L’entreprise s’est notamment appuyée sur son modèle Stable Diffusion, générateur d’images 2D à partir de texte. Il en a résulté Stable Zero123, publié en décembre.

S’y ajoute désormais Stable Video 3D. Son socle : Stable Video Diffusion. C’est-à-dire un modèle générant des vidéos à partir d’images.

Un générateur 3D basé sur un modèle image-to-video présente plus de capacités de généralisation, constate Stability AI. Autre avantage : la cohérence temporelle en vidéo se traduit par une cohérence spatiale entre vues.

Stable Video 3D : des versions statique et dynamique

Ces vues sont le résultat de la première étape de traitement : Stable Video 3D prend l’image d’entrée et restitue l’objet sous de multiples angles. Les restitutions peuvent être statiques… ou dynamiques, au sens où on fait varier l’élévation et l’azimut. Intervient ensuite la phase de reconstitution 3D (vidéos orbitales). Un procédé proche de la photogrammétrie.

Pour que le modèle maîtrise les variations d’élévation et d’azimut, on l’entraîne en lui communiquant des « trajectoires de caméra » explicites.

Le pipeline de restitution 3D implique, entre autres, l’usage de la fonction SDS assortie de masques et d’optimisations géométriques (symétrie et séparation des échelles).

Stable Video 3D est disponible en deux variantes, qui produisent respectivement des vidéos orbitales statiques et dynamiques. Son usage commercial nécessite une souscription à la licence Stability AI.

Même exigence pour Stable Zero123, dont la version commerciale a la particularité de n’avoir été entraînée que sur des contenus CC-BY et CC0. La version open source a quant à elle été entraînée sur des objets CC-BY-NC.

Stable Video 3D génère 21 frames de 576 x 576 pixels, moyennant une image de même taille en entrée.

À consulter en complément :

Modèles text-to-video : qui voisine avec Sora d’OpenAI ?
LLM et smartphones : l’exemple MobileDiffusion
Dix questions avant de choisir de la GenAI « sur étagère »

Illustration principale © Tada Images – Adobe Stock

Recent Posts

Vers des mises à jour cumulatives intermédiaires pour Windows

Pour réduire la taille des mises à jour de Windows, Microsoft va mettre en place…

26 minutes ago

RH, finances, stratégie… Les complexités de la Dinum

De l'organisation administrative à la construction budgétaire, la Cour des comptes pointe le fonctionnement complexe…

20 heures ago

SpreadSheetLLM ou la promesse d’une GenAI plus à l’aise avec Excel

Sous la bannière SpreadSheetLLM, Microsoft propose un framework destiné à optimiser le traitement des feuilles…

21 heures ago

Comment AT&T a payé une rançon pour le vol de ses données

Selon le magazine Wired, AT&T aurait payé près de 400 000 $ à un pirate…

23 heures ago

Banni, Kaspersky quitte les États-Unis

Confronté à un bannissement généralisé, Kaspersky va se retirer progressivement du marché américain, à partir…

1 jour ago

La « coche bleue », mais pas que : X accusé d’enfreindre le DSA

Voilà X officiellement accusé d'infractions au DSA. La Commission européenne ne valide pas le système…

2 jours ago