Gemini 2.0 : où, quand et pour qui ?
Google a officialisé Gemini 2.0, nouvelle génération de ses modèles génératifs commerciaux. Elle sert pour le moment des usages essentiellement expérimentaux.
Un pirate parlant d'hypothèques ou un commentateur sportif discutant de vulcanologie ?
GenExplainer est centré sur ce genre d'expérience conversationnelle avec des "personnages inattendus". Il est l'un des démonstrateurs de l'API Multimodal Live. Celle-ci peut produire du texte et de l'audio. Des modalités qu'elle gère aussi en entrée, au même titre que la vidéo.
Gemini 2.0 : un modèle expérimental comme tête de pont
Le modèle sous-jacent s'appelle Gemini 2.0 Flash Experimental. Il est la tête de pont de la nouvelle génération de modèles génératifs de Google. Adapté à la conversation, il est accessible à tous les utilisateurs de Gemini, sur web et desktop (disponibilité sur l'app mobile en 2025). Les développeurs peuvent l'utiliser dans Google AI Studio et Vertex AI.
La fenêtre de contexte du prédécesseur Gemini 1.5 Flash est conservée (1 million de tokens en entrée, 8k en sortie). La principale nouveauté, c'est la multimodalité des ouputs. Gemini 2.0 Flash peut en l'occurrence produire de l'audio et des images. Des fonctionnalités néanmoins restreintes, pour l'heure, à des "testeurs de confiance" (sélectionnés sur liste d'attente), et avec application automatique de filigranes invisibles (technologie SynthID de DeepMind).
Gemini 2.0 testé sur les AI Overviews de Google Search
La génération Gemini 2.0 a commencé, cette semaine, à alimenter les AI Overviews de Google Search. Ces résumés générés par IA apparaissent en réponse à certaines requêtes. Depuis leur lancement en mai 2024, ils ont produit des résultats qui ont interrogé. Par exemple, recommander de manger un caillou par jour (information en fait sourcée de The Onion, un média parodique) ou mettre de la colle dans une pizza pour ne pas que le fromage glisse (a priori basé sur un post Reddit ironique).
I couldn't believe it before I tried it. Google needs to fix this asap.. pic.twitter.com/r3FyOfxiTK
- Kris Kashtanova (@icreatelife) May 23, 2024
https://t.co/W09ssjvOkJ pic.twitter.com/6ALCbz6EjK
- SG-r01 (@heavenrend) May 22, 2024
Les AI Overviews avec Gemini 2.0 sont pour le moment expérimentées à périmètre restreint. Google évoque la capacité à traiter des "sujets plus complexes" (les problèmes mathématiques et de codage sont données en exemple). Il se contente de promettre un "déploiement plus large" en 2025.
Lire aussi : Apple Intelligence, une épreuve de patience
Gemini 2.0 dans Colab, la suite de Data Science Agent
La famille Gemini 2.0 apporte aussi des capacités agentiques dans Colab. En l'occurrence, pour la création de notebooks à partir d'objectifs d'analyse de données. Une fonctionnalité en accès anticipé (sur demande) qui fera l'objet d'un "déploiement plus large" au premier semestre 2025. Elle s'inscrit dans la lignée de Data Science Agent, un service expérimental lancé à la dernière Google I/O pour obtenir des insights à partir d'un dataset.
Gemini 2.0, coup de boost pour Project Astra...
Project Astra fut lui aussi présenté à la Google I/O. Objectif de l'initiative : esquisser un "assistant IA universel". Elle est ouverte à des "testeurs de confiance", recrutés sur liste d'attente. Le passage à Gemini 2.0 améliorera notamment l'aspect multilingue, affirme Google. Tout en élargissant la mémoire (aux 10 dernières minutes d'une conversation), en réduisant la latence (traitement de l'audio en flux, entre autres) et en apportant des capacités natives d'appel d'outils (Search, Lens, Maps).
... et pour Project Mariner
Autre prototype faisant appel à Gemini 2.0 : Project Mariner. Il s'agit d'un agent autonome pour la navigation web, disponible sous forme d'extension Chrome. Un panneau latéral permet de dialoguer avec lui. Le système est fondé sur la réalisation de captures d'écran, à l'instar de ce qu'Anthropic propose depuis quelques semaines. L'agent envoie les éléments à une instance cloud de Gemini qui, en retour, lui transmet des instructions. L'outil ne fonctionne que dans un onglet actif et demande confirmation pour des actions sensibles. Des "testeurs de confiance" ont commencé à le prendre en main. Google a, en parallèle, "commencé à discuter avec l'écosystème web"...
Jules, l'esquisse d'un GitHub Copilot agentique
Du Gemini 2.0, il y en a aussi derrière Jules, un assistant agentique pour le codage qui s'intègre dans les workflows GitHub. Actuellement en bêta limitée, il sera "disponible en 2025", nous annonce-t-on sans plus de détails.
Sur l'API, plusieurs nouveautés accompagnent Gemini 2.0. Parmi elles, la possibilité d'activer plusieurs outils externes à la fois (le modèle décide alors lequel utiliser). Et, dans le même esprit, l'appel de fonctions dit "compositionnel" (l'API peut, pour générer une réponse, invoquer plusieurs fonctions). On aura aussi noté l'option boîtes englobantes, censée améliorer la détection et la localisation d'éléments dans les images et les vidéos.
Illustration principale générée par IA
Sur le même thème
Voir tous les articles Data & IA