Pour gérer vos consentements :

Tendance MLOps sur l'API OpenAI

Publié par Clément Bohic le - mis à jour à

En parallèle de ses travaux sur la multimodalité marqués par l'arrivée du speech-to-speech, OpenAI a assemblé un pipeline de distillation de modèles.

Envie d'évaluer gratuitement des modèles sur notre plate-forme ? Acceptez de partager les résultats avec nous.

Tel est le contrat qu'OpenAI propose aux utilisateurs de son API. Aux dernières nouvelles, il en sera ainsi jusqu'à fin 2024.

Un pipeline de distillation

Par "évaluer gratuitement", il faut entendre "effectuer sans frais jusqu'à 7 évaluations par semaine". Notamment dans le cadre du pipeline de distillation qu'OpenAI propose désormais. Destiné à entraîner de "petits" modèles (type GPT-4o mini) à partir des outputs de "grands" modèles (type GPT-4o), il exploite des briques existantes. En l'occurrence, Stored Completions (stockage des réponses via le paramètre store de l'API Chat Completions), Evals (en bêta ; création de datasets de test, puis définition et exécution de ces tests) et la fonctionnalité de fine-tuning.

Un cache de prompts

Autre nouveauté sur l'API : la mise en cache des prompts (celle-là même qu'Anthropic a aussi récemment mise en place). Elle couvre pour le moment GPT-4o, GPT-4o mini, o1-preview et o1-mini, ainsi que leurs versions ajustées. Elle s'applique automatiquement aux prompts de plus de 1024 tokens et se fait par incréments de 128 tokens.
Les tokens récupérés depuis le cache coûtent la moitié du prix normal. La recherche de correspondance se faisant sur la base du début des prompts, on s'assurera de placer en premier le contenu statique (instructions et exemples, notamment).
Pour le moment, on ne peut pas vider soi-même le cache. En période creuse, les prompts peuvent y rester jusqu'à une heure. Plus généralement, ils y restent 5 à 10 minutes, explique OpenAI. Tout dépend du niveau global de charge...

Du fine-tuning à base d'images

L'API de fine-tuning prend désormais en charge les images (sur GPT-4o). Soit encodées en base64, soit par URL HTTP. Qu'il comprenne ou non du texte, un dataset peut accepter jusqu'à 50 000 exemples contenant des images. Chaque exemple peut réunir jusqu'à 10 images, chaque image pouvant peser jusqu'à 10 Mo.
Les images sont tokenisées en fonction de leur taille et facturées au même prix que les tokens texte. Jusqu'au 31 octobre, OpenAI offre 1 million de tokens par jour. Par après, il en coûtera 25 $ par million de tokens. L'utilisation des modèles ajustés reviendra à 3,75 $ le million de tokens en entrée et 15 $ le million de tokens en sortie.

Du speech-to-speech, y compris en "temps réel"

Sur le même principe que le "mode voix avancé" de ChatGPT, le speech-to-speech fait son entrée - en bêta publique - sur l'API. L'audio est donc géré en entrée comme en sortie sans passer par des modèles texte intermédiaires.

Cette fonctionnalité crée une interface WebSocket persistante - ce qui lui permet de diffuser les réponses "au fil de l'eau", d'où le nom d'API "Realtime". Elle concerne pour le moment GPT-4o. Les tokens texte sont facturés 5 $ le million en entrée et 20 $ le million en sortie. Le million de tokens audio revient à 100 $ en entrée et 200 $ en sortie. Ce qui, affirme OpenAI, représente un coût d'environ 6 ¢ la minute en entrée et 24 ¢ en sortie.

L'appel de fonctions est pris en charge et il est possible de fournir un historique de conversation au début d'une session. La limite est actuellement à environ 100 sessions simultanées sur le niveau d'usage maximal de l'API. Deux formats audio sont gérés : PCM 24 kHz monocanal et G.711 à 8 kHz.

OpenAI entend ajouter, à terme, les modalités vision et vidéo. Il compte aussi élargir le speech-to-speech à GPT-4o mini et prendre en charge la mise en cache des prompts.
Dans les prochaines semaines, l'API Chat Completions prendra aussi en charge l'audio en entrée et en sortie. Elle se prêtera à des usages qui n'exigent pas de faible latence.