Modèles text-to-video : avec qui voisine Sora ?

Google, Meta, Stability AI… Voici quelques initiatives de modèles text-to-video qui avaient émergé avant qu’OpenAI dévoile Sora.

Publié par Clément Bohic le 19 févr. 2024 | Mis à jour le 21 févr. 2024 à 13:05

Lecture
3 min

Imprimer

Jusqu’à 60 secondes de vidéo à partir d’une invite textuelle ? Il y a Sora pour ça.

OpenAI a officialisé, la semaine passée, ce modèle text-to-video… qui a suscité un certain emballement, bien qu’au stade expérimental en cercle fermé.

Stable Diffusion décliné en version vidéo

Pour trouver un modèle de ce type ouvert à un plus large public, on peut se tourner vers l’API de Stability AI. Elle donne, depuis quelques semaines, accès à Stable Video Diffusion. Celui-ci ne prend toutefois pas de texte en entrée : c’est un modèle image-to-video.
Le prix est fixe : 20 $ pour créer une vidéo. Le modèle est entraîné pour générer 25 images, de 3 à 30 FPS, en 1024 x 576, 576 x 1024 ou 768 x 768. On nous annonce un temps de traitement « inférieur à 2 minutes ».

Stability avait officialisé le modèle en novembre 2023. Ou plus précisément les modèles. La version « 25 images » se base effectivement sur une version « 14 images ». Code d’inférence et poids sont disponibles pour un usage non commercial. Une UI web est dans les cartons.

Stable Video Diffusion est en alpha. L’API est récemment passée sur la version 1.1 du modèle. À la clé, davantage de garanties de reproductibilité, des paramètres supplémentaires pour monter en qualité et des progrès sur la génération aux formats carré/portrait.

Imagen et Lumiere, deux initiatives text-to-video origine Google

Chez Google, le modèle Imagen fait l’objet d’une exploitation commerciale pour ses capacités de génération d’images. Il peut aussi créer des vidéos, mais cette fonctionnalité reste à l’état de recherche. Elle a fait l’objet d’un article publié en 2022. On y entrevoit une architecture impliquant une « cascade » de modèles de diffusion spatiaux et temporels interlacés.

Un modèle de base génère une vidéo de 16 images en 40 x 24 à 3 FPS. De multiples modèles spatiaux et temporels interviennent ensuite pour opérer la super-résolution.

Google a un autre modèle text-to-video dans ses labos : Lumiere. Il a fait l’objet d’un article en janvier 2024. Ici, pas d’architecture en cascade, mais une approche unifiée : plutôt que de générer des images séparées et de combler le vide à renfort de modèles de super-résolution temporelle, on génère la vidéo en une passe.

Comme avec Stable Diffusion Video et Imagen, on reste sur des vidéos de quelques secondes, loin de ce que promet OpenAI.

Make-a-Video, expérimentation made in Meta

Meta a aussi fait étalage de travaux dans le domaine des modèles text-to-video. En particulier avec Make-a-Video. On y retrouve une approche fusionnant les couches spatiales et temporelles.

Make-a-Video a suivi un entraînement en deux temps. D’abord à partir de paires texte-image pour « apprendre à quoi ressemble le monde et comment on le décrit ». Puis de vidéos non annotées pour en « comprendre le mouvement ».

Le modèle peut travailler aussi bien à partir de texte que d’images. Il peut créer des variations d’une vidéo et créer un mouvement entre une image de départ et une image d’arrivée.

Illustration principale © Tada Images – Adobe Stock

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Modèles text-to-video : avec qui voisine Sora ?

Stable Diffusion décliné en version vidéo

Imagen et Lumiere, deux initiatives text-to-video origine Google

Make-a-Video, expérimentation made in Meta

La CNIL face aux limites du chiffrement homomorphe

Avec les LLM, peut-on concilier qualité et diversité des réponses ?

De l'UX à l'AX : penser les interfaces pour les agents IA

IA et copyright : la perspective d'une norme IETF réconciliatrice

Les avancées d'Open R1, ce projet qui veut reproduire les [...]

S’abonner

Sécuriser les solutions de communications unifiées et [...]

Optimisez votre gestion documentaire avec la GED

Simplifier l’architecture et améliorer la sécurité

Un guide pour sécuriser la connectivité des [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Stable Diffusion décliné en version vidéo

Imagen et Lumiere, deux initiatives text-to-video origine Google

Make-a-Video, expérimentation made in Meta

S’abonner

Partager l'épisode