Controversé, l'index de transparence LLM de Stanford passe en v2

Stanford a récemment actualisé son index de transparence des LLM, l’étendant à 14 fournisseurs dont Mistral AI. Les critères n’ont pas changé ; la méthode, si.

Publié par Clément Bohic le 20 juin 2024 - mis à jour à 11:15

Lecture
4 min

Imprimer

Une armurerie est-elle « plus transparente » si elle accompagne chaque vente d'une documentation sur les blessures par arme à feu ?

EleutherAI avait posé cette question il y a quelques mois, en réaction à la publication, par Stanford, d'un index de transparence des LLM.
Une question rhétorique, pour le coup. Par son intermédiaire, l'ONG américaine critiquait les fondements mêmes de cet index.

L'analogie des armes à feu se référait au critère exigeant la communication des impacts aval. Plus précisément, des dommages que l'usage d'un modèle est susceptible de causer. Selon EleutherAI, un tel exercice d'anticipation ne relève pas d'une quelconque transparence.

Entre autres éléments, l'ONG relevait le poids trop important donné à des éléments solvables « sur le papier » sans réel changement en pratique. Elle déplorait aussi le peu de considération donné à la production d'articles de recherche. Ainsi qu'une analyse biaisée contre les modèles ouverts comme contre les licences permissives. Elle estimait plus globalement que l'index défavorisait les modèles au profit des services hébergés fondés sur ces modèles.

Mistral AI, nouvel entrant...

L'index donnait un instantané au 15 septembre 2023. Il couvrait dix modèles émanant d'autant de fournisseurs. Nommément :

- AI21 Labs (Jurassic-2)
- Amazon (Titan Text)
- Anthropic (Claude 2)
- Cohere (Command)
- Google (PaLM 2)
- Hugging Face (BLOOMZ)
- Inflection (Inflection-1)
- Meta (Llama 2)
- OpenAI (GPT-4)
- Stability AI (Stable Diffusion 2)

Une mise à jour est intervenue il y a quelques semaines. Si les critères sont restés les mêmes (évaluation « binaire » sur 100 indicateurs), la méthode a changé : la recherche d'informations a laissé place au déclaratif.

Lire aussi : Un niveau gratuit sur l'API Mistral AI

Sur 19 fournisseurs sollicités, 14 ont joué le jeu. Parmi eux, AI21 Labs, Meta et OpenAI ont été jugés chacun sur le même modèle qu'à l'automne dernier. Amazon l'a cette fois-ci été sur Titan Text Express ; Anthropic, sur Claude 3 ; Google, sur Gemini 1.0 Ultra ; Stability AI, sur Stable Video Diffusion. Les autres sont de nouveaux entrants à l'index : Adept (avec Fuyu-8B), Aleph Alpha (Luminous), BigCode/Hugging Face/ServiceNow (StarCoder), IBM (Granite), Microsoft (Phi-2), Mistral AI (Mistral 7B) et Writer (Palmyra-X).

D'une vague à l'autre, le score moyen a nettement augmenté : il est passé de 37 à 58 points. Tous les modèles déjà évalués en 2023 ont progressé. Au global, il ne reste plus que quatre indicateurs satisfaits par aucun modèle.
Pour autant, il n'y a pas d'avancée sur certains domaines. En particulier les informations sur les données d'entraînement (copyright, licences, données personnelles), l'évaluation des garde-fous... et l'estimation de l'impact aval. Sur ce dernier point, les modèles qui s'en sortent le mieux (Adept, AI21 Labs, Aleph Alpha et Google) remplissent 29 % des critères.

... et élève moyen

Conformément à sa stratégie, Mistral AI ne marque pas de points sur de multiples critères ayant trait aux données d'entraînement. Cela va de la taille du dataset à la sélection des données en passant par les références à leurs créateurs.

Pas de points non plus sur la durée de développement, la quantité de ressources de calcul nécessaire, l'énergie consommée et les émissions carbone. Mistral AI ne fait pas non plus, au sens de l'index, la démonstration des limites et des risques de Mistral 7B. Il ne fournit pas, par ailleurs, d'évaluation des dommages - intentionnels ou non - susceptibles de survenir à l'usage. Par là même, il ne marque pas de points sur le critère de reproductibilité de ces évaluations.

La partie « aval » comprend aussi, entre autres, des critères sur les individus et les secteurs de marché affectés. Des éléments sur lesquels Mistral AI n'a pas fourni d'informations suffisantes. Même chose concernant les mécanismes de recours. Et, sur la partie amont, concernant le nettoyage des données. L'entreprise évoque diverses techniques de dédoublonnement et de filtrage des contenus indésirables, mais d'une manière jugée insuffisamment claire.

Publié par :
Clément Bohic

Tags associés :

#LLM

Recevez le magazine chez vous ou sur votre lieu de travail et accédez à la version numérique à tout moment !

à partir de 120€ par an pour 1 an d'abonnement

J'en profite

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Controversé, l'index de transparence LLM de Stanford passe en v2

Mistral AI, nouvel entrant...

... et élève moyen

Alphabet x Anthropic : pas de fusion pour l'autorité [...]

Data Privacy Framework : un an après, les États-Unis invités à [...]

{ Tribune Expert } - Grands modèles de langage (LLM), la menace [...]

AI Act : l'UE à la recherche de cas pratiques

Spécialisation des LLM : LoRA, une forme d'illusion ?

Réduction des difficultés liées à la migration vers [...]

Panorama des cybermenaces dans le secteur du e-commerce

Santé : L’IA générative change la donne

La meilleure liste de contrôle de Sécurité du code au cloud

La MasterClass Silicon - NIS2

La Matinale Silicon : IA & Cybersécurité

Le grand dîner de gala de la Communauté