Pour gérer vos consentements :
Categories: ChatGPT

Modèles text-to-video : avec qui voisine Sora ?

Jusqu’à 60 secondes de vidéo à partir d’une invite textuelle ? Il y a Sora pour ça.

OpenAI a officialisé, la semaine passée, ce modèle text-to-video… qui a suscité un certain emballement, bien qu’au stade expérimental en cercle fermé.

Stable Diffusion décliné en version vidéo

Pour trouver un modèle de ce type ouvert à un plus large public, on peut se tourner vers l’API de Stability AI. Elle donne, depuis quelques semaines, accès à Stable Video Diffusion. Celui-ci ne prend toutefois pas de texte en entrée : c’est un modèle image-to-video.
Le prix est fixe : 20 $ pour créer une vidéo. Le modèle est entraîné pour générer 25 images, de 3 à 30 FPS, en 1024 x 576, 576 x 1024 ou 768 x 768. On nous annonce un temps de traitement « inférieur à 2 minutes ».

Stability avait officialisé le modèle en novembre 2023. Ou plus précisément les modèles. La version « 25 images » se base effectivement sur une version « 14 images ». Code d’inférence et poids sont disponibles pour un usage non commercial. Une UI web est dans les cartons.

Stable Video Diffusion est en alpha. L’API est récemment passée sur la version 1.1 du modèle. À la clé, davantage de garanties de reproductibilité, des paramètres supplémentaires pour monter en qualité et des progrès sur la génération aux formats carré/portrait.

Imagen et Lumiere, deux initiatives text-to-video origine Google

Chez Google, le modèle Imagen fait l’objet d’une exploitation commerciale pour ses capacités de génération d’images. Il peut aussi créer des vidéos, mais cette fonctionnalité reste à l’état de recherche. Elle a fait l’objet d’un article publié en 2022. On y entrevoit une architecture impliquant une « cascade » de modèles de diffusion spatiaux et temporels interlacés.

Un modèle de base génère une vidéo de 16 images en 40 x 24 à 3 FPS. De multiples modèles spatiaux et temporels interviennent ensuite pour opérer la super-résolution.

Google a un autre modèle text-to-video dans ses labos : Lumiere. Il a fait l’objet d’un article en janvier 2024. Ici, pas d’architecture en cascade, mais une approche unifiée : plutôt que de générer des images séparées et de combler le vide à renfort de modèles de super-résolution temporelle, on génère la vidéo en une passe.

Comme avec Stable Diffusion Video et Imagen, on reste sur des vidéos de quelques secondes, loin de ce que promet OpenAI.

Make-a-Video, expérimentation made in Meta

Meta a aussi fait étalage de travaux dans le domaine des modèles text-to-video. En particulier avec Make-a-Video. On y retrouve une approche fusionnant les couches spatiales et temporelles.

Make-a-Video a suivi un entraînement en deux temps. D’abord à partir de paires texte-image pour « apprendre à quoi ressemble le monde et comment on le décrit ». Puis de vidéos non annotées pour en « comprendre le mouvement ».

Le modèle peut travailler aussi bien à partir de texte que d’images. Il peut créer des variations d’une vidéo et créer un mouvement entre une image de départ et une image d’arrivée.

Illustration principale © Tada Images – Adobe Stock

Recent Posts

Vers des mises à jour cumulatives intermédiaires pour Windows

Pour réduire la taille des mises à jour de Windows, Microsoft va mettre en place…

24 minutes ago

RH, finances, stratégie… Les complexités de la Dinum

De l'organisation administrative à la construction budgétaire, la Cour des comptes pointe le fonctionnement complexe…

20 heures ago

SpreadSheetLLM ou la promesse d’une GenAI plus à l’aise avec Excel

Sous la bannière SpreadSheetLLM, Microsoft propose un framework destiné à optimiser le traitement des feuilles…

21 heures ago

Comment AT&T a payé une rançon pour le vol de ses données

Selon le magazine Wired, AT&T aurait payé près de 400 000 $ à un pirate…

23 heures ago

Banni, Kaspersky quitte les États-Unis

Confronté à un bannissement généralisé, Kaspersky va se retirer progressivement du marché américain, à partir…

1 jour ago

La « coche bleue », mais pas que : X accusé d’enfreindre le DSA

Voilà X officiellement accusé d'infractions au DSA. La Commission européenne ne valide pas le système…

2 jours ago