L'approche d'Apple pour des LLM frugaux en mémoire

Des chercheurs d’Apple proposent un modèle d’inférence adapté aux environnements dont les ressources mémoire sont restreintes.

Publié par Clément Bohic le 4 janv. 2024 | Mis à jour le 5 janv. 2024 à 12:21

Lecture
2 min

Imprimer

Comment faire tourner, avec le moins de latence possible, un LLM qui excède la capacité mémoire disponible ? Des chercheurs d'Apple ont récemment signé un article à ce sujet.

Au coeur de leurs travaux, un mécanisme d'optimisation des transferts de données de la flash vers la RAM. Il implique, entre autres techniques, la prédiction de matrices creuses, l'usage d'une fenêtre glissante et la concaténation de valeurs. L'idée était à la fois de réduire les volumes de transferts et d'optimiser les performances en lecture.

La présence de matrices creuses (sparsity, traduit par « parcimonie ») est caractéristique des FFN (réseaux de neurones à propagation avant : l'information ne transite que dans un sens, par opposition à la circulation bidirectionnelle entre les couches des RNN). Les chercheurs ont exploité cette propriété pour ne charger que le nécessaire en RAM. En l'occurrence, uniquement les paramètres à input non nul... et ceux dont on peut prédire que l'output sera non nul (un modèle spécifique est utilisé à cet effet).

La technique de fenêtrage réduit les requêtes I/O en réutilisant des neurones précédemment activés.

La concaténation de lignes et de colonnes permet de constituer de plus gros fragments de données, favorisant l'augmentation des débits de la flash.

Seul les poids d'attention sont conservés en permanance en RAM. Cela représente environ un tiers de la taille des LLM testés. Ici, en l'occurrence, OPT 6.7B et une version « sparsifiée » de Falcon 7B.

Le tableau ci-dessous montre l'évolution des performances de transfert de données pour un modèle OPT 6.7B en format 16 bits sur un M1 Max avec SSD 1 To.

Le graphique suivant illustre les gains en latence par rapport à la plus efficace des baselines. Celle-ci implique, selon les termes de l'expérience, de charger la moitié du modèle en RAM à chaque prédiction.

Illustration principale © Siqarus - Adobe Stock

Publié par :
Clément Bohic

Tags associés :

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

L'approche d'Apple pour des LLM frugaux en mémoire

Databricks viserait Neon : vers une autre acquisition OLTP [...]

Chatbot Arena : la remise en cause d'un benchmark IA référent

Process mining : l'automatisation est de moins en moins une option

Déployer l'IA à l'échelle : l'approche d'AXA, entre vision et [...]

Chez Eiffage, l'IA générative au service des métiers

S’abonner

Briser les barrières de la sécurité en entreprise

Symphony 25 : Sécuriser du code au cloud jusqu'au SOC [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

S’abonner

Partager l'épisode