Tendance MLOps sur l'API OpenAI

En parallèle de ses travaux sur la multimodalité marqués par l'arrivée du speech-to-speech, OpenAI a assemblé un pipeline de distillation de modèles.

Publié par Clément Bohic le 2 oct. 2024 | mis à jour à 15:07

Lecture
4 min

Imprimer

Envie d'évaluer gratuitement des modèles sur notre plate-forme ? Acceptez de partager les résultats avec nous.

Tel est le contrat qu'OpenAI propose aux utilisateurs de son API. Aux dernières nouvelles, il en sera ainsi jusqu'à fin 2024.

Un pipeline de distillation

Par "évaluer gratuitement", il faut entendre "effectuer sans frais jusqu'à 7 évaluations par semaine". Notamment dans le cadre du pipeline de distillation qu'OpenAI propose désormais. Destiné à entraîner de "petits" modèles (type GPT-4o mini) à partir des outputs de "grands" modèles (type GPT-4o), il exploite des briques existantes. En l'occurrence, Stored Completions (stockage des réponses via le paramètre store de l'API Chat Completions), Evals (en bêta ; création de datasets de test, puis définition et exécution de ces tests) et la fonctionnalité de fine-tuning.

Un cache de prompts

Autre nouveauté sur l'API : la mise en cache des prompts (celle-là même qu'Anthropic a aussi récemment mise en place). Elle couvre pour le moment GPT-4o, GPT-4o mini, o1-preview et o1-mini, ainsi que leurs versions ajustées. Elle s'applique automatiquement aux prompts de plus de 1024 tokens et se fait par incréments de 128 tokens.
Les tokens récupérés depuis le cache coûtent la moitié du prix normal. La recherche de correspondance se faisant sur la base du début des prompts, on s'assurera de placer en premier le contenu statique (instructions et exemples, notamment).
Pour le moment, on ne peut pas vider soi-même le cache. En période creuse, les prompts peuvent y rester jusqu'à une heure. Plus généralement, ils y restent 5 à 10 minutes, explique OpenAI. Tout dépend du niveau global de charge...

Du fine-tuning à base d'images

L'API de fine-tuning prend désormais en charge les images (sur GPT-4o). Soit encodées en base64, soit par URL HTTP. Qu'il comprenne ou non du texte, un dataset peut accepter jusqu'à 50 000 exemples contenant des images. Chaque exemple peut réunir jusqu'à 10 images, chaque image pouvant peser jusqu'à 10 Mo.
Les images sont tokenisées en fonction de leur taille et facturées au même prix que les tokens texte. Jusqu'au 31 octobre, OpenAI offre 1 million de tokens par jour. Par après, il en coûtera 25 $ par million de tokens. L'utilisation des modèles ajustés reviendra à 3,75 $ le million de tokens en entrée et 15 $ le million de tokens en sortie.

Du speech-to-speech, y compris en "temps réel"

Sur le même principe que le "mode voix avancé" de ChatGPT, le speech-to-speech fait son entrée - en bêta publique - sur l'API. L'audio est donc géré en entrée comme en sortie sans passer par des modèles texte intermédiaires.

Cette fonctionnalité crée une interface WebSocket persistante - ce qui lui permet de diffuser les réponses "au fil de l'eau", d'où le nom d'API "Realtime". Elle concerne pour le moment GPT-4o. Les tokens texte sont facturés 5 $ le million en entrée et 20 $ le million en sortie. Le million de tokens audio revient à 100 $ en entrée et 200 $ en sortie. Ce qui, affirme OpenAI, représente un coût d'environ 6 ¢ la minute en entrée et 24 ¢ en sortie.

L'appel de fonctions est pris en charge et il est possible de fournir un historique de conversation au début d'une session. La limite est actuellement à environ 100 sessions simultanées sur le niveau d'usage maximal de l'API. Deux formats audio sont gérés : PCM 24 kHz monocanal et G.711 à 8 kHz.

OpenAI entend ajouter, à terme, les modalités vision et vidéo. Il compte aussi élargir le speech-to-speech à GPT-4o mini et prendre en charge la mise en cache des prompts.
Dans les prochaines semaines, l'API Chat Completions prendra aussi en charge l'audio en entrée et en sortie. Elle se prêtera à des usages qui n'exigent pas de faible latence.

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT