PC Copilot+, eldorado de l' IA locale ?

Trait caractéristique des PC Copilot+, les NPU sont un argument en faveur du déploiement de LLM en local. Mais jusqu'où ?

Publié par Clément Bohic le 4 déc. 2024 | Mis à jour le 6 déc. 2024 à 15:38

Lecture
5 min

Imprimer

À quoi peut servir un NPU (unité de traitement neuronal) à plus de 40 TOPS ? Avec les PC Copilot+, difficile d'ignorer la question : c'est le principal élément du cahier des charges technique associé à ce label. Les NPU sont des coprocesseurs spécialisés en calcul matriciel ; une opération fondamentale dans le fonctionnement des LLM (grands modèles de langage) actuels. Ils travaillent généralement en faible précision (nombres encodés sous forme d'entiers). Et ont, en conséquence, une capacité exprimée en TOPS (téraopérations par seconde) plutôt qu'en flops (opérations en virgule flottante par seconde).

Les NPU qui équipent la première génération des PC Copilot+ n'ont pas de mémoire intégrée. La bande passante est donc restreinte à celle de la RAM. Soit, pour le moment, 120 à 135 Go/s en fonction des plateformes. Cela limite leur performance pure, en particulier dans le cas des LLM, pour générer le premier token (phase dite de prefill). Les NPU ont, en revanche, l'avantage d'être plus efficaces que les CPU et les GPU sur le plan énergétique. Ils l'ont démontré de longue date sur un usage qui reste d'actualité : le traitement des signaux numériques. Microsoft le met par exemple en oeuvre avec Windows Studio Effects, qui optimise l'image et le son lors des visioconférences. Il en a fait un des services phares des PC Copilot+. Cette mise en oeuvre a impliqué des optimisations au niveau logiciel. Suffisamment pour que Windows Studio Effects ne soit livré sur les PC Copilot+ x86 qu'après leur lancement commercial, par l'intermédiaire d'une mise à jour.

Microsoft ouvre des portes à l'inférence locale

Pour exploiter les NPU d'AMD et d'Intel, Microsoft recommande d'utiliser son API DirectML, qui ciblait à l'origine les GPU. Leur prise en charge n'est toutefois pas encore stabilisée. Il en va de même pour les SoC Snapdragon. En l'état, faire de l'inférence sur ces derniers suppose un certain nombre de contraintes.

Seul le format ONNX est supporté nativement et, pour de meilleures performances, il est nécessaire de cibler le SDK Qualcomm AI Engine Direct par l'intermédiaire du provider QNN. C'est la stack qu'utilisent les expériences PC Copilot+ intégrées à Windows. Au-delà de la bande passante, la quantité même de RAM peut se révéler un goulet d'étranglement.

En première ligne, les puces Lunar Lake d'Intel (Core Ultra Série 2), qui plafonnent à 32 Go. La quantification des modèles (réduction de leur précision) apporte cependant une forme de solution. Et d'autres techniques émergent. Ainsi AMD a-t-il inclus, dans son logiciel Ryzen AI, un modèle d'exécution impatiente évitant la compilation sous forme de graphe. Il a aussi intégré un mécanisme de « génération assistée » : un petit modèle intervient en amont pour présélectionner des tokens de sortie candidats.

Pour stimuler l'usage des NPU avec DirectML, Microsoft a constitué la Windows Copilot Library. Cette bibliothèque d'API donne accès à diverses fonctionnalités des PC Copilot+, dont Windows Studio Effects, le modèle Phi Silica, la reconnaissance de texte (Text Recognition) et la traduction des sous-titres en temps réel (Live Caption Translations). La recherche sémantique, le RAG, le résumé de texte et l'upscaling d'images sont censés suivre. Autre levier : Visual Studio Code, avec une extension AI Toolkit qui permet de télécharger, d'exécuter et d'ajuster des modèles localement.

Des LLM locaux, pour quoi faire ?

Qui dit inférence locale dit possibilité de conserver les données sur la machine. De quoi favoriser le respect d'exigences réglementaires (conformité, vie privée des utilisateurs...) et les expérimentations impliquant des éléments sensibles, tels que des authentifiants. L'option locale donne aussi davantage de liberté dans le choix des modèles... et de leurs caractéristiques. Une manière de ne pas dépendre, entre autres, de filtres de modération du contenu (Cocreator dans Paint, une des fonctionnalités des PC Copilot+, ne répond ainsi pas à tous les prompts, analysés au préalable du côté du serveur).

Une manière, également, de constituer des toolchains spécifiques (bases vectorielles, méthodes de chunking des documents, modèles d'embedding...). Et d'accéder à des briques pas forcément disponibles sur les services hébergés : grammaires de llama.cpp (règles restreignant les outputs), fusion de modèles avec mergekit, liste de tokens alternatifs et de leurs probabilités avec mikupad, etc.

L'IA locale apporte en outre une forme de stabilité, par comparaison aux services hébergés dont on ne maîtrise pas forcément l'évolution, aussi bien sur le plan fonctionnel que tarifaire. Cela inclut les quotas d'usage et autres limites de capacité, souvent modifiées en fonction de la demande globale. Tout comme la variation même des modèles et des résultats qu'ils produisent.

Une autre promesse de l'IA locale est de pouvoir tester sans faire exploser la facture. Même si les fenêtres de contexte s'agrandissent et que la mise en cache des prompts se développe, le fonctionnement « naturel » des LLM tend encore à induire l'envoi répété d'informations. Et, par là même, des coûts sur les API, dont le modèle économique est basé en partie sur les tokens en entrée. Un phénomène qu'amplifient les usages de type agentique. L'inférence locale englobe potentiellement tous les processeurs à disposition. Encore faut-il que les logiciels et les composantes sous-jacentes les prennent en charge.

D'une part, il y a ceux qui n'ont pas de version Arm native. Le front-end AnythingLLM, axé sur le RAG, est dans ce cas. Quant au framework Ollama, il n'a que récemment intégré l'architecture Arm64 dans ses builds officiels. D'autre part, il y a ceux qui ne gèrent pas les NPU. Le serveur llama.cpp en fait partie, comme, par ruissellement, les applications qui l'utilisent, tel LM Studio. La tendance à la réduction de la taille des LLM, et à l'adoption d'architectures « légères » n'activant pas tous les paramètres à la fois, accompagne le mouvement vers l'IA locale. C'est l'occasion de valider que certains usages n'exigent pas forcément un modèle de fondation hébergé dans le Cloud.

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

PC Copilot+, eldorado de l' IA locale ?

Microsoft ouvre des portes à l'inférence locale

Des LLM locaux, pour quoi faire ?

Avec o3 et o4-mini, OpenAI mise sur une chaîne de pensée multimodale

De France Travail à la RATP, les leçons du "bac à sable" IA de la CNIL

OpenAI met GPT-4.5 en retrait : que retenir de cette parenthèse ?

Gouvernance des communications : qui se distingue sur ce marché [...]

AWS Summit : le RAG, au carrefour des stratégies GenAI

S’abonner

FFTO : Fiber To The Office ou la haute disponibilité [...]

L'UHD et la Transformation Numérique : Répondre aux [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Microsoft ouvre des portes à l'inférence locale

Des LLM locaux, pour quoi faire ?

S’abonner

Partager l'épisode