Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Gemini, ce modèle voulu multimodal « par essence »

Google vante la multimodalité « naturelle » de Gemini. À quoi la doit-on et comment se manifeste-t-elle ?

Publié par Clément Bohic le 7 déc. 2023 | mis à jour à 13:14

Lecture
3 min

Imprimer

MMMU (Massive Multi-discipline Multimodal Understanding), l'idéal pour illustrer les capacités de Gemini ?

Ce benchmark, récemment présenté, contient 11 500 questions issues de manuels et d'examens de niveau secondaire. Il couvre 30 sujets sur 6 disciplines : arts & design, business, sciences, santé-médecine, humanités & sciences sociales, tech & ingénierie. On y trouve de multiples formats d'images allant des cartes aux partitions musicales en passant par des structures chimiques.

Mis à l'épreuve sur MMMU, GPT-4V(ision) a atteint une précision de 55,7 %. Les meilleurs modèles open source, autour de 34 %. D'après Google, Gemini Ultra - la plus grosse version - a réalisé un score de 62,4 %. L'équipe chargée du modèle chez DeepMind le met généreusement en avant dans son rapport.

Par rapport aux travaux que Google a pu mener précédemment sur CoCa, Flamingo ou PaLI, les modèles Gemini sont multimodaux « par nature ». C'est-à-dire qu'ils peuvent traiter des séquences interlaçant texte, image et audio. Ce dernier est, en outre, traité directement, sans conversion préalable en texte, ce qui permet de ne pas perdre des nuances.

Des chiffres et des lettres

Le dataset d'entraînement contient des données « de documents web, de livres et de code ». C'est à peu près tout ce qu'en dit Google.
L'entraînement s'est fait sur des TPU v4 et v5e. On a privilégié des sauvegardes d'état en mémoire plutôt que sur du stockage persistant. Cela a amélioré les délais de reprise après interruption.

Pour ce qui est des capacités multilingues, Gemini Ultra est au niveau de GPT-4. En tout cas sur le benchmark WMT-23. Il se distingue davantage si on y ajoute la résolution de problèmes de maths (dataset MGSM, variante traduite de GSM8K).

De l'écart, il y en a aussi - toujours sur la foi des mesures de DeepMind - sur la partie codage. En 0-shot sur HumanEval (génération de code Python), Gemini dépasse GPT-4 d'environ 7 points. La différence est moins nette (1 point) sur Natural2Code, un dataset « à la HumanEval » mais dont aucun élément n'est public.

Sur la compréhension et la génération de langage, les gains en qualité sont cohérents vis-à-vis de la taille des modèles Gemini.

Gemini Pro a servi de base pour la conception d'AlphaCode 2. Se sont ensuivies plusieurs étapes de finetuning avec la méthode GOLD, puis sur une version actualisée du dataset CodeContests, avant une dernière spécialisation sur « un jeu de données plus qualitatif ».

Pour chaque problème, on génère jusqu'à 1 million d'échantillons de code, en randomisant à chaque fois la température. Pour n'en conserver que 10, on opère un premier filtrage, puis on agrège en fonction du comportement à l'exécution.

Illustration principale © ?? ?????????? - Adobe Stock

Publié par :
Clément Bohic

Tags associés :

Avec o3 et o4-mini, OpenAI mise sur une chaîne de pensée multimodale

Par Clément Bohic le 17 avr. 2025

6 min.

De France Travail à la RATP, les leçons du "bac à sable" IA de la CNIL

Par Clément Bohic le 16 avr. 2025

OpenAI met GPT-4.5 en retrait : que retenir de cette parenthèse ?

Par Clément Bohic le 16 avr. 2025

Gouvernance des communications : qui se distingue sur ce marché [...]

Par Clément Bohic le 14 avr. 2025

AWS Summit : le RAG, au carrefour des stratégies GenAI

Par Clément Bohic le 11 avr. 2025

Livres Blancs

CELESTE

FFTO : Fiber To The Office ou la haute disponibilité [...]

L’utilisation des services cloud et de SaaS (Software as a Service) est devenu un impératif et s’inscrit dans une [...]

Télécharger

CELESTE

L'UHD et la Transformation Numérique : Répondre aux [...]

Dans un paysage où la transformation numérique est devenue incontournable, les entreprises sont confrontées à une [...]

Télécharger

Signaturit

Cybersécurité et digitalisation Comment protéger les [...]

Ce livre blanc offre aux décideurs des solutions concrètes pour [...]

Télécharger

Palo Alto Networks

Leader des services de réponse à incident de cybersécurité

Les cyberattaques évoluent à une vitesse, dans des proportions et à des niveaux de sophistication sans précédent. [...]

Télécharger

Voir tous les livres blancs

Vos prochains événements

Voir tous les événements

5 juin 2025

Le grand dîner de Gala de la Communauté

Organisé par silicon.fr

Inscrivez-vous

3 juillet 2025

La Matinale Silicon - Zéro Trust

Organisé par silicon.fr

Inscrivez-vous

7 novembre 2024

La MasterClass Silicon - NIS2

Organisé par silicon.fr

REVIVRE EN IMAGES

Voir tous les événements

Inscrivez-vous à la Newsletter pour recevoir les dernières actualités

Abonnez-vous au magazine Silicon et profitez de contenus exclusifs !

Boostez votre expertise professionnelle en accédant aux informations clés de votre domaine.