Le calcul de l'IA : la chimère des temps modernes
La chimère est une créature mythique de la mythologie grecque : un monstre à deux têtes, lion et bouc, avec un corps de chèvre et une queue de serpent, crachant des flammes quand il respire. Aujourd'hui, on emploie le terme « chimère » pour décrire « un concept reposant sur plusieurs idées ».
On peut ainsi imaginer le calcul de l'intelligence artificielle comme une chimère des temps modernes, composée elle aussi de plusieurs entités : un CPU (central processing unit) et un DSA (domaine specific accelerator). Comme la créature mythique, cet hybride technologique possède des forces distinctes. Quand ces forces sont combinées, elles libèrent une puissance formidable.
Le CPU règne en maître du contrôle et de la logique, orchestrant les tâches et maintenant l'ordre. Le DSA excelle avec ses prouesses de traitement uniques, s'attelant aux calculs répétitifs essentiels à l'IA.
La connexion entre les deux composants assure une communication fluide et un transfert de l'énergie, dotant l'ensemble de de capacités de calculs hors-normes.
Calcul de l'IA : combiner les CPUs et les DSAs pour traiter le cloud et l'IA avec succès
Avec la croissance exponentielle de la demande de calcul, trouver l'équilibre et concevoir des capacités de traitement suffisantes est difficile. Pour passer des applications professionnelles les plus courantes en entreprise à une IA d'avant-garde, les organisations nécessitent des infrastructures flexibles et efficaces.
C'est là que la combinaison CPU- DSA rentre en jeu.
Les CPUs s'apparentent au cerveau de l'ordinateur, traitant avec polyvalence une multitude de tâches. Il faut les voir comme la tête pensante derrière les applications professionnelles, les bases de données et les serveurs web.
Ces puces généralistes excellent dans le traitement séquentiel et la gestion d'une multitude de tâche. Les CPU peuvent traiter à eux seuls des modèles traditionnels d'inférence IA avec des LLMs de petite taille. Par contre, pour maximiser la puissance de calcul, il faut miser sur les DSAs.
Les DSAs sont adaptés aux tâches de traitement d'IA car ils sont particulièrement rapides et peuvent effectuer des calculs répétitifs en simultané. Ils englobent différents types de puces : GPU, TPU, ASIC, FPGA ou VPU. Leurs forces respectives en font les moteurs de l'inférence IA. Quand il s'agit des grands modèles de langage (LLM) ou de modèles et set de données spécialisés, les DSAs fournissent la puissance brute supplémentaire qui est nécessaire.
Pourquoi combiner CPUs et DSAs ?
Voilà comment la magie opère :
> Une polyvalence rentable : en utilisant en même temps des CPUs et des DSAs, l'environnement cloud devient plus flexible. Les workloads traditionnels sont traités en douceur par les CPUs, alors que les tâches d'inférences IA, plus denses et plus spécialisées, sont relayées par les DSAs. Cette répartition des tâches entre CPU-DSA délivre une puissance accélérée, alloue efficacement les ressources et optimise les coûts.
> Des workflows fluides : pour les applications d'IA complexes, les CPUs et les DSAs sont complémentaires. Les CPUs peuvent prendre en charge le pré-traitement des données, la coordination des tâches et la gestion générale. Quant aux DSAs, ils s'attaquent aux calculs les plus lourds et les plus spécialisés du modèle d'IA.
> Une scalabilité simplifiée : les environnements cloud qui combine des instances de CPU et de DSA peuvent être déployés à grande échelle plus facilement ou, au contraire, diminués en fonction des exigences de workloads et d' inférence IA, assurant une allocation optimale des ressources.
L'IA deviendra un prérequis pour toutes les applications
Il faut ne faut plus isoler l'IA. A l'avenir l'IA sera un composant essentiel pour tout service ou application. Il faut concevoir les prochaines générations de serveurs avec un maximum de cores et d'accélérateurs d'IA pour qu'ils puissent opérer sur le long-terme.
Comme les serveurs restent plus longtemps en service, les entreprises doivent équiper leur infrastructure de nouvelle génération d'un maximum de coeurs de calcul et d'accélération de l'IA. Elles s'assurent ainsi que leurs services répondent aux exigences actuelles et futures.
Jeff Wittich, Chief Product Officer - Ampere.
Sur le même thème
Voir tous les articles Data & IA