Gemini, ce modèle voulu multimodal « par essence »

Google vante la multimodalité « naturelle » de Gemini. À quoi la doit-on et comment se manifeste-t-elle ?

Publié par Clément Bohic le 7 déc. 2023 - mis à jour à 13:14

Lecture
3 min

Imprimer

MMMU (Massive Multi-discipline Multimodal Understanding), l'idéal pour illustrer les capacités de Gemini ?

Ce benchmark, récemment présenté, contient 11 500 questions issues de manuels et d'examens de niveau secondaire. Il couvre 30 sujets sur 6 disciplines : arts & design, business, sciences, santé-médecine, humanités & sciences sociales, tech & ingénierie. On y trouve de multiples formats d'images allant des cartes aux partitions musicales en passant par des structures chimiques.

Mis à l'épreuve sur MMMU, GPT-4V(ision) a atteint une précision de 55,7 %. Les meilleurs modèles open source, autour de 34 %. D'après Google, Gemini Ultra - la plus grosse version - a réalisé un score de 62,4 %. L'équipe chargée du modèle chez DeepMind le met généreusement en avant dans son rapport.

Par rapport aux travaux que Google a pu mener précédemment sur CoCa, Flamingo ou PaLI, les modèles Gemini sont multimodaux « par nature ». C'est-à-dire qu'ils peuvent traiter des séquences interlaçant texte, image et audio. Ce dernier est, en outre, traité directement, sans conversion préalable en texte, ce qui permet de ne pas perdre des nuances.

Des chiffres et des lettres

Le dataset d'entraînement contient des données « de documents web, de livres et de code ». C'est à peu près tout ce qu'en dit Google.
L'entraînement s'est fait sur des TPU v4 et v5e. On a privilégié des sauvegardes d'état en mémoire plutôt que sur du stockage persistant. Cela a amélioré les délais de reprise après interruption.

Pour ce qui est des capacités multilingues, Gemini Ultra est au niveau de GPT-4. En tout cas sur le benchmark WMT-23. Il se distingue davantage si on y ajoute la résolution de problèmes de maths (dataset MGSM, variante traduite de GSM8K).

De l'écart, il y en a aussi - toujours sur la foi des mesures de DeepMind - sur la partie codage. En 0-shot sur HumanEval (génération de code Python), Gemini dépasse GPT-4 d'environ 7 points. La différence est moins nette (1 point) sur Natural2Code, un dataset « à la HumanEval » mais dont aucun élément n'est public.

Sur la compréhension et la génération de langage, les gains en qualité sont cohérents vis-à-vis de la taille des modèles Gemini.

Gemini Pro a servi de base pour la conception d'AlphaCode 2. Se sont ensuivies plusieurs étapes de finetuning avec la méthode GOLD, puis sur une version actualisée du dataset CodeContests, avant une dernière spécialisation sur « un jeu de données plus qualitatif ».

Pour chaque problème, on génère jusqu'à 1 million d'échantillons de code, en randomisant à chaque fois la température. Pour n'en conserver que 10, on opère un premier filtrage, puis on agrège en fonction du comportement à l'exécution.

Illustration principale © ?? ?????????? - Adobe Stock

Publié par :
Clément Bohic

Tags associés :

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Gemini, ce modèle voulu multimodal « par essence »

Des chiffres et des lettres

La CNIL face aux limites du chiffrement homomorphe

Quelle infrastructure on-premise pour porter une stratégie IA ?

De l'UX à l'AX : penser les interfaces pour les agents IA

Avec les LLM, peut-on concilier qualité et diversité des réponses ?

IA et copyright : la perspective d'une norme IETF réconciliatrice

S’abonner

Simplifier l’architecture et améliorer la sécurité

Réunir la connectivité et la sécurité

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Des chiffres et des lettres

S’abonner

Partager l'épisode