LLM et smartphones : l'exemple MobileDiffusion

En optimisant l’architecture UNet, des chercheurs ont conçu un modèle de diffusion adapté aux appareils mobiles.

Publié par Clément Bohic le 7 févr. 2024 | mis à jour à 12:09

Lecture
3 min

Imprimer

Générer une image de 512 x 512 pixels en 0,2 seconde sur un iPhone 15 ? Quatre chercheurs de chez Google en ont fait leur « produit d’appel » pour MobileDiffusion.

Ce modèle expérimental est taillé pour une exécution sur les appareils mobiles. Il a, pour cela, fait l’objet de multiples optimisations sur la base de l’architecture UNet.

Certaines de ces optimisations s’inspirent de travaux préalables. Par exemple, pour la mise à l’échelle des blocs dits transformeurs. Ceux-ci sont, dans les grandes lignes, responsables de la compréhension du texte qui permet de générer les images. Ils incluent une couche d’autoattention particulièrement coûteuse en ressources de calcul.

Les travaux préalables en question introduisent une architecture UViT. Laquelle réduit les « coûts d’attention » en privilégiant le placement de ces blocs sur le segment basse résolution de UNet.
Les chercheurs ont exploité cette approche pour relocaliser des blocs depuis des segments haute résolution. Pour maintenir la cohérence du nombre de paramètres, ils ont réduit la taille des canaux aux plus basses résolutions. Une méthode qui dégrade moins les performances que de réduire la taille même des blocs transformeurs. À nombre de paramètres comparable, le coût d’inférence diminue de 26 % sans baisse de qualité.

Autre technique utilisée : sur les hautes résolutions, découpler la couche d’autoattention et la couche de cross-attention pour ne conserver que cette dernière. Elle est effectivement bien moins gourmande, ne dépendant pas d’une relation quadratique entre résolution et longueur de séquence. Gain annoncé : 15 % en performance, sans perte de qualité.

Au final, en considérant ces deux techniques, les chercheurs ont :

– Supprimé intégralement les blocs transformeurs à la plus haute résolution (64 x 64)
– Éliminé la couche d’autoattention dans les blocs transformeurs intermédiaires (32 x 32 et 16 x 16 « extérieur »)
– Conservé intégralement les blocs transformeurs au cœur de UNet

L’approche GAN appliquée à MobileDiffusion

Toujours au niveau des blocs transformeurs, la mise en place d’un partage des projections de clés et de valeurs (tous deux dérivés du même input) a permis de réduire d’environ 5 % le nombre de paramètres. On en a supprimé 10 % de plus en réduisant le ratio d’expansion – de 8 à 6 – pour les couches à propagation avant.

Les blocs de convolution, qui servent notamment à extraire des caractéristiques, ont aussi fait l’objet d’optimisations. D’une part, une « modularisation » à presque tous les niveaux, à renfort de couches « légères » (résultat : -10 % de paramètres). De l’autre, la réduction du nombre de blocs résiduels (+19 % de performance en inférence, -15 % de paramètres).

Deux plafonds arbitraires ont conditionné le développement de MobileDiffusion : 400 millions de paramètres et 200 Gflops. En complément aux travaux sur l’architecture, les chercheurs ont optimisé le finetuning. En particulier à travers la distillation progressive et l’implémentation de la méthode « hybride » UFOGen, qui intègre une dimension d’entraînement antagoniste.

MobileDiffusion – ainsi qu’une variante Lite – a été comparé à trois autres modèles de diffusion à espace latent. Son VAE (autoencodeur variationnel, qui compresse les images dans cet espace) a été adapté pour encoder sur trois canaux et non quatre.

Les exemples ci-dessous donnent une idée des capacités de MobileDiffusion. En matière de poids d’image, par rapport à Stable Diffusion 1.5, on atteint un taux de compression de 46,4 % (29,9 % pour la version Lite).

Publié par :
Clément Bohic

Tags associés :

#GOOGLE

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

LLM et smartphones : l'exemple MobileDiffusion

L’approche GAN appliquée à MobileDiffusion

Déployer l'IA à l'échelle : l'approche d'AXA, entre vision et [...]

Chez Eiffage, l'IA générative au service des métiers

Avec o3 et o4-mini, OpenAI mise sur une chaîne de pensée multimodale

De France Travail à la RATP, les leçons du "bac à sable" IA de la CNIL

OpenAI met GPT-4.5 en retrait : que retenir de cette parenthèse ?

S’abonner

FFTO : Fiber To The Office ou la haute disponibilité [...]

L'UHD et la Transformation Numérique : Répondre aux [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

L’approche GAN appliquée à MobileDiffusion

S’abonner

Partager l'épisode