Silicon.fr L'actualité informatique et high-tech pour décideurs IT

L'approche d'Apple pour des LLM frugaux en mémoire

Des chercheurs d’Apple proposent un modèle d’inférence adapté aux environnements dont les ressources mémoire sont restreintes.

Publié par Clément Bohic le 4 janv. 2024 | Mis à jour le 5 janv. 2024 à 12:21

Lecture
2 min

Imprimer

Comment faire tourner, avec le moins de latence possible, un LLM qui excède la capacité mémoire disponible ? Des chercheurs d'Apple ont récemment signé un article à ce sujet.

Au coeur de leurs travaux, un mécanisme d'optimisation des transferts de données de la flash vers la RAM. Il implique, entre autres techniques, la prédiction de matrices creuses, l'usage d'une fenêtre glissante et la concaténation de valeurs. L'idée était à la fois de réduire les volumes de transferts et d'optimiser les performances en lecture.

La présence de matrices creuses (sparsity, traduit par « parcimonie ») est caractéristique des FFN (réseaux de neurones à propagation avant : l'information ne transite que dans un sens, par opposition à la circulation bidirectionnelle entre les couches des RNN). Les chercheurs ont exploité cette propriété pour ne charger que le nécessaire en RAM. En l'occurrence, uniquement les paramètres à input non nul... et ceux dont on peut prédire que l'output sera non nul (un modèle spécifique est utilisé à cet effet).

La technique de fenêtrage réduit les requêtes I/O en réutilisant des neurones précédemment activés.

La concaténation de lignes et de colonnes permet de constituer de plus gros fragments de données, favorisant l'augmentation des débits de la flash.

Seul les poids d'attention sont conservés en permanance en RAM. Cela représente environ un tiers de la taille des LLM testés. Ici, en l'occurrence, OPT 6.7B et une version « sparsifiée » de Falcon 7B.

Le tableau ci-dessous montre l'évolution des performances de transfert de données pour un modèle OPT 6.7B en format 16 bits sur un M1 Max avec SSD 1 To.

Le graphique suivant illustre les gains en latence par rapport à la plus efficace des baselines. Celle-ci implique, selon les termes de l'expérience, de charger la moitié du modèle en RAM à chaque prédiction.

Illustration principale © Siqarus - Adobe Stock

Publié par :
Clément Bohic

Tags associés :

{ Tribune Expert } - Trois choses à savoir sur les applications IA

Par Lori MacVittie * le 18 déc. 2024

7 min.

EuroHPC prend le virage des AI Factories : les 7 premiers [...]

Par Clément Bohic le 17 déc. 2024

OpenAI : 5 français influents de la startup star de l'IA

Par La rédaction le 16 déc. 2024

NotebookLM, du prototype au produit

Par Clément Bohic le 16 déc. 2024

Pour mieux raisonner, les LLM doivent-ils se passer du langage ?

Par La rédaction le 13 déc. 2024

Livres Blancs #cloud

Checkmarx

La meilleure liste de contrôle de Sécurité du code au cloud

Changement de l'impact et du rôle des applications cloud. Qu'est-ce que le Code to Cloud ? Le Code to Cloud [...]

Télécharger

Hitachi

VSP One Block, la simplification de la gestion des [...]

Découvrez comment VSP One Block d'Hitachi Vantara optimise le stockage, réduit l’énergie et renforce la sécurité [...]

Télécharger

Elastic

Le guide de l'observabilité moderne : considérations, [...]

Le parcours vers l’observabilité est plus important que jamais pour les entreprises [...]

Télécharger

IONOS

Sécurité, personnalisation, expertise : la triple [...]

Depuis plus de 30 ans, IONOS a développé une expérience unique et s’impose désormais comme un acteur Cloud de [...]

Télécharger

Voir tous les livres blancs

Vos prochains événements

Voir tous les événements

5 juin 2025

Le grand dîner de Gala de la Communauté

Organisé par silicon.fr

Inscrivez-vous

3 juillet 2025

La Matinale Silicon - Zéro Trust

Organisé par silicon.fr

Inscrivez-vous

7 novembre 2024

La MasterClass Silicon - NIS2

Organisé par silicon.fr

REVIVRE EN IMAGES

Voir tous les événements

Inscrivez-vous à la Newsletter pour recevoir les dernières actualités

Abonnez-vous au magazine Silicon et profitez de contenus exclusifs !

Boostez votre expertise professionnelle en accédant aux informations clés de votre domaine.