PC Copilot+, eldorado de l' IA locale ?
À quoi peut servir un NPU (unité de traitement neuronal) à plus de 40 TOPS ? Avec les PC Copilot+, difficile d'ignorer la question : c'est le principal élément du cahier des charges technique associé à ce label. Les NPU sont des coprocesseurs spécialisés en calcul matriciel ; une opération fondamentale dans le fonctionnement des LLM (grands modèles de langage) actuels. Ils travaillent généralement en faible précision (nombres encodés sous forme d'entiers). Et ont, en conséquence, une capacité exprimée en TOPS (téraopérations par seconde) plutôt qu'en flops (opérations en virgule flottante par seconde).
Les NPU qui équipent la première génération des PC Copilot+ n'ont pas de mémoire intégrée. La bande passante est donc restreinte à celle de la RAM. Soit, pour le moment, 120 à 135 Go/s en fonction des plateformes. Cela limite leur performance pure, en particulier dans le cas des LLM, pour générer le premier token (phase dite de prefill). Les NPU ont, en revanche, l'avantage d'être plus efficaces que les CPU et les GPU sur le plan énergétique. Ils l'ont démontré de longue date sur un usage qui reste d'actualité : le traitement des signaux numériques. Microsoft le met par exemple en oeuvre avec Windows Studio Effects, qui optimise l'image et le son lors des visioconférences. Il en a fait un des services phares des PC Copilot+. Cette mise en oeuvre a impliqué des optimisations au niveau logiciel. Suffisamment pour que Windows Studio Effects ne soit livré sur les PC Copilot+ x86 qu'après leur lancement commercial, par l'intermédiaire d'une mise à jour.
Microsoft ouvre des portes à l'inférence locale
Pour exploiter les NPU d'AMD et d'Intel, Microsoft recommande d'utiliser son API DirectML, qui ciblait à l'origine les GPU. Leur prise en charge n'est toutefois pas encore stabilisée. Il en va de même pour les SoC Snapdragon. En l'état, faire de l'inférence sur ces derniers suppose un certain nombre de contraintes.
Seul le format ONNX est supporté nativement et, pour de meilleures performances, il est nécessaire de cibler le SDK Qualcomm AI Engine Direct par l'intermédiaire du provider QNN. C'est la stack qu'utilisent les expériences PC Copilot+ intégrées à Windows. Au-delà de la bande passante, la quantité même de RAM peut se révéler un goulet d'étranglement.
En première ligne, les puces Lunar Lake d'Intel (Core Ultra Série 2), qui plafonnent à 32 Go. La quantification des modèles (réduction de leur précision) apporte cependant une forme de solution. Et d'autres techniques émergent. Ainsi AMD a-t-il inclus, dans son logiciel Ryzen AI, un modèle d'exécution impatiente évitant la compilation sous forme de graphe. Il a aussi intégré un mécanisme de « génération assistée » : un petit modèle intervient en amont pour présélectionner des tokens de sortie candidats.
Pour stimuler l'usage des NPU avec DirectML, Microsoft a constitué la Windows Copilot Library. Cette bibliothèque d'API donne accès à diverses fonctionnalités des PC Copilot+, dont Windows Studio Effects, le modèle Phi Silica, la reconnaissance de texte (Text Recognition) et la traduction des sous-titres en temps réel (Live Caption Translations). La recherche sémantique, le RAG, le résumé de texte et l'upscaling d'images sont censés suivre. Autre levier : Visual Studio Code, avec une extension AI Toolkit qui permet de télécharger, d'exécuter et d'ajuster des modèles localement.
Des LLM locaux, pour quoi faire ?
Qui dit inférence locale dit possibilité de conserver les données sur la machine. De quoi favoriser le respect d'exigences réglementaires (conformité, vie privée des utilisateurs...) et les expérimentations impliquant des éléments sensibles, tels que des authentifiants. L'option locale donne aussi davantage de liberté dans le choix des modèles... et de leurs caractéristiques. Une manière de ne pas dépendre, entre autres, de filtres de modération du contenu (Cocreator dans Paint, une des fonctionnalités des PC Copilot+, ne répond ainsi pas à tous les prompts, analysés au préalable du côté du serveur).
Une manière, également, de constituer des toolchains spécifiques (bases vectorielles, méthodes de chunking des documents, modèles d'embedding...). Et d'accéder à des briques pas forcément disponibles sur les services hébergés : grammaires de llama.cpp (règles restreignant les outputs), fusion de modèles avec mergekit, liste de tokens alternatifs et de leurs probabilités avec mikupad, etc.
Lire aussi : Supercalculateurs ARM : le consortium européen se lance dans le développement d'une puce Exascale
L'IA locale apporte en outre une forme de stabilité, par comparaison aux services hébergés dont on ne maîtrise pas forcément l'évolution, aussi bien sur le plan fonctionnel que tarifaire. Cela inclut les quotas d'usage et autres limites de capacité, souvent modifiées en fonction de la demande globale. Tout comme la variation même des modèles et des résultats qu'ils produisent.
Une autre promesse de l'IA locale est de pouvoir tester sans faire exploser la facture. Même si les fenêtres de contexte s'agrandissent et que la mise en cache des prompts se développe, le fonctionnement « naturel » des LLM tend encore à induire l'envoi répété d'informations. Et, par là même, des coûts sur les API, dont le modèle économique est basé en partie sur les tokens en entrée. Un phénomène qu'amplifient les usages de type agentique. L'inférence locale englobe potentiellement tous les processeurs à disposition. Encore faut-il que les logiciels et les composantes sous-jacentes les prennent en charge.
D'une part, il y a ceux qui n'ont pas de version Arm native. Le front-end AnythingLLM, axé sur le RAG, est dans ce cas. Quant au framework Ollama, il n'a que récemment intégré l'architecture Arm64 dans ses builds officiels. D'autre part, il y a ceux qui ne gèrent pas les NPU. Le serveur llama.cpp en fait partie, comme, par ruissellement, les applications qui l'utilisent, tel LM Studio. La tendance à la réduction de la taille des LLM, et à l'adoption d'architectures « légères » n'activant pas tous les paramètres à la fois, accompagne le mouvement vers l'IA locale. C'est l'occasion de valider que certains usages n'exigent pas forcément un modèle de fondation hébergé dans le Cloud.
Sur le même thème
Voir tous les articles Data & IA