Entre AWS et Hugging Face, les arbitrages LLM d'eTF1

Hugging Face est en bonne position dans la toolbox LLM d’eTF1, qui déploie à la fois sur du GPU NVIDIA et sur des puces Inferentia.

Publié par La rédaction le 9 juil. 2024 | mis à jour à 11:02

Lecture
2 min

Imprimer

Plutôt TGI ou vLLM ? Chez eTF1, on a opté pour le premier de ces serveurs d'inférence, qui « répond [aux] besoins actuels ». On garde toutefois un oeil sur le second, dans l'optique de montées en charge.

Les déploiements de LLM se font sur AWS. Plus précisément sur EKS, à l'aide de Karpenter, avec des configurations spécifiques pour provisionner deux types d'instances, équipées respectivement en puces NVIDIA T4 et Inferentia.

Pour minimiser la consommation de ressources, eTF1 recourt à la quantisation (réduction de précision)... mais pas avec les puces Inferentia, qui ne la prennent pas en charge. Sur ses Mac de prototypage, il est en 4 bits avec Ollama. Dans le cloud, il a le choix entre plusieurs implémentations. Parmi elles, EETQ (8 bits, qui fonctionne avec tous les modèles), AWQ (4 bits, qui nécessite un modèle spécifique) et bitsandbytes (qui « fonctionne avec tous les modèles mais peut être plus lent »).

Le fonctionnement des Inferentia diffère de celui des GPU NVIDIA pour une autre technique sur laquelle eTF1 s'appuie : le traitement par lots (travail sur plusieurs prompts en simultané). Sur les puces d'AWS, le batching a la particularité d'être statique (déterminé à la compilation).

Entre autres techniques, eTF1 met aussi en oeuvre le sharding, qui lui permet d'exploiter les deux cores des instances Inferentia. Il inclure en outre un schéma dans ses batchs afin d'obtenir du JSON en retour. Le RAG est exploré avec un outil origine Hugging Face : TEI (Text Embeddings Inference).

À consulter en complément :

IA générative et internet ouvert : les craintes de l'Arcep
Les arbitrages de Salesforce pour l'évaluation des LLM
La problématique VMware plus concrète que les LLM chez Red Hat France
Mozilla face au dilemme de la GenAI dans Firefox
Comment marier IA générative et données d'entreprise

Illustration © Quardia Inc. - Adobe Stock

Publié par :
La rédaction

Tags associés :

#LLM

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Entre AWS et Hugging Face, les arbitrages LLM d'eTF1

Avec o3 et o4-mini, OpenAI mise sur une chaîne de pensée multimodale

De France Travail à la RATP, les leçons du "bac à sable" IA de la CNIL

OpenAI met GPT-4.5 en retrait : que retenir de cette parenthèse ?

Gouvernance des communications : qui se distingue sur ce marché [...]

AWS Summit : le RAG, au carrefour des stratégies GenAI

S’abonner

Les stations de travail dédiées à votre métier

Future of Work – Transformer le support et [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

S’abonner

Partager l'épisode