Grok est-il vraiment un LLM « ouvert » ?

Ouvert, mais jusqu’où ? Nous nous étions posé la question en septembre dernier, lorsque Mistral AI eut publié son premier LLM. Au menu, poids et code d’inférence sous licence Apache… mais pas les données d’entraînement.

xAI a suivi la même voie avec Grok-1. Par rapport à Mistral 7B, le modèle est cependant livré dans un état « antérieur » du cycle d’entraînement. En l’occurrence, tel qu’il était en octobre 2023 avant tout affinage sur des compétences spécifiques type dialogue. Ce n’est donc pas celui qui sous-tend actuellement l’assistant Grok.

Dans un premier, il y eut un prototype à 33 milliards de paramètres : Grok-0, développé au cours de l’été 2023 et que xAI avait officialisé début novembre. Des améliorations sur le codage et le raisonnement avaient mené à Grok-1, expliquait l’entreprise.

On le constate aujourd’hui : il y a aussi eu des évolutions sur l’architecture. xAI est passé sur du MoE (Mixture-of-Experts) : des modèles spécialisés coexistent et s’activent en fonction des requêtes. À défaut de réduire l’empreinte mémoire, cela diminue la quantité de ressources de calcul nécessaire.

Composé de huit modèles, Grok-1 apparaît massif (314 milliards de paramètres en FP8 natif ; 318 Go). Les modèles ne s’enclenchant toutefois que deux par deux, il n’y a jamais plus de 86 milliards de paramètres actifs.

Une plainte contre OpenAI

Peu avant de publier les poids de Grok-1, Elon Musk a déposé plainte contre OpenAI en Californie. L’intéressé accuse l’entreprise de ne pas avoir respecté ses engagements envers ses soutiens initiaux. Il en faisait partie… et avait finalement pris ses distances en 2018. Une décision consécutive, selon lui, au reniement de la promesse de développer des modèles ouverts.

OpenAI n’a pas la même version. D’après son équipe dirigeante, Elon Musk a quitté le navire après avoir d’abord échoué à en prendre le contrôle, puis à le fusionner avec Tesla. Des discussions dans ce sens eurent lieu après qu’OpenAI eut décidé de monter une activité à but lucratif, ayant constaté que le développement d’une intelligence artificielle générale nécessiterait plus de ressources qu’imaginé.

Illustration © artinspiring – Adobe Stock