LLM : l’initiative de Crédit Mutuel Arkéa sur base BLOOMZ

BLOOM, une ressource sous-exploitée ? Cette opinion fut globalement partagée lors du lancement officiel de la communauté OpenLLM France. C’était en juin dernier, dans les locaux de Linagora.

En toile de fond, un appel à projets – alors ouvert depuis quelques jours – doté d’une enveloppe de 40 M€. Et destiné, notamment, à soutenir le développement de « giga-modèles génératifs ». Il est toujours en cours, jusqu’au 24 octobre.

Du côté de Crédit Mutuel Arkéa, on ne s’est pas positionné sur ce dossier. Mais on s’est appuyé sur BLOOM, ce modèle de fondation « au sang français », pour développer un LLM destiné à un usage business.

La démarche a plus précisément reposé sur BLOOMZ, une déclinaison formée pour suivre des instructions. Les équipes de Crédit Mutuel Arkéa ont exploité trois versions, à 560 millions, 3 milliards et 7 milliards de paramètres. Le résultat est publié en open source.

Bilinguisme… et frugalité

Les trois modèles ont été entraînés dans un contexte de chatbot, sur une quarantaine de cas d’usage : support à partir de corpus documentaires, rédaction de synthèses et de documentation, collecte de données extra-financières à partir de rapports, etc.

L’entraînement s’est fait sur un dataset de conversations représentant 900 millions de tokens, à parts égales entre français et anglais (recours à l’API Google Traduction pour équilibrer).

Crédit Mutuel Arkéa ne garantit pas que les performances d’origine dans d’autres langues soient maintenues. Cela tient aussi, en partie, à l’adoption du format bfloat16 en remplacement de float16. Avec sa plus grande plage dynamique (8 bits d’exposant), il accélère l’entraînement et limite la croissance des poids.

Les modèles se révèlent relativement frugaux en tokens. En tout cas selon les données qu’on nous communique (encodage de la fameuse « phrase de Proust », longue de plus de 800 mots).

Crédit Mutuel Arkéa avance, étude à l’appui, la corrélation positive entre frugalité et performance. Le groupe bancaire fait aussi valoir le rapport coût-efficacité… à l’aune d’un benchmark « sans validité scientifique », admet-il. Pour deux raisons en particulier. D’une part, la taille limitée du dataset de test. D’autre part, le manque de diversité socio-démographique dans les conversations exploitées.

Le benchmark se fonde sur un score associant précision et exhaustivité de la réponse.

À consulter en complément :

IA générative et service public : le Gouvernement expérimente sur socle américain
Mistral AI lance son premier LLM : ouvert, mais jusqu’où ?
« iPhone de l’intelligence artificielle : ce que l’on sait du projet d’OpenAI
A=B donc B=A ? Pour les LLM, ça ne coule pas de source
Mainframes et IA générative : IBM tente une jonction

Illustration principale ©