Google annonce Gemini 2, le modèle IA ultime qui doit changer nos vies
Google lance Gemini 2.0 Flash, le premier modèle IA de nouvelle génération appartenant à la famille Gemini 2. Il va bouleverser notre usage numérique dès maintenant et sert de base à des projets encore plus ambitieux.
Google vient d'annoncer une nouvelle génération de modèle d'intelligence artificielle avec Gemini 2.0. Doté de meilleures performances et d'une latence plus faible, il est décrit comme multimodal et fer de lance de l'ère des agents conversationnels. Pour la firme américaine, Gemini 2 doit être considéré comme un tournant dans le domaine de l'IA.
L'une des grandes différences avec les modèles d'IA précédents de Google est que Gemini 2 est capable de “comprendre les informations à travers le texte, la vidéo, les images, l'audio et le code” et de générer de tels contenus nativement. Gemini premier du nom faisait quant à lui appel à des modèles externes, comme Imagen pour la création d'images à partir d'une invite texte, pour répondre aux requêtes des utilisateurs. Il s'agissait donc d'un hub de modèles différents plutôt que d'un modèle en lui-même.
Gemini 2.0 Flash, un modèle multimodal natif
Plusieurs sous-modèles seront mis à disposition au fur et à mesure, chacun répondant à des besoins précis. Aujourd'hui, seul un d'entre eux devient disponible, sous forme expérimentale : Gemini 2.0 Flash.
Gemini 2 Flash surpasse Gemini 1.5 Pro sur les principaux tests de performance, tout en se montrant jusqu'à deux fois plus rapide. En plus des entrées multimodales, il prend aussi en charge les sorties multimodales. Une réponse de Gemini 2 Flash peut donc contenir à la fois du texte, de l'image et l'audio multilingue de synthèse vocale. Cette version peut aussi faire appel à Google Search pour alimenter ses réponses.
Gemini 2.0 commence à être disponible dès à présent dans l'application Gemini sur appareil mobile ou sur la version web de bureau. Il est possible de sélectionner le modèle Gemini 2 Flash à partir du menu déroulant qui regroupe tous les modèles accessibles. Pour rappel, l'assistant Gemini peut intervenir dans les autres applications, pas seulement au sein de la sienne. Il est précisé que dès début 2025, Gemini 2 va commencer à être intégré dans les produits de l'écosystème de Google pour profiter de ses capacités nativement dans Gmail, Drive et bien d'autres.
Gemini 2.0 Flash est aussi d'ores et déjà opérationnel en accès anticipé (la sortie officielle est prévue pour janvier 2025) pour les développeurs tiers à travers l'API Gemini. Le nouveau modèle pourra donc alimenter d'autres plateformes et applications que celles publiées par Google.
Project Astra, un assistant IA ultime sur smartphone… et smart glasses
Lors de sa conférence Google I/O de mai dernier, le géant du numérique nous présentait Project Astra, un assistant IA universel qui doit révolutionner notre manière d'utiliser notre smartphone Android. Project Astra est encore en phase de prototype et son développement est loin d'être fini, mais Google explique comment Gemini 2 va contribuer à le faire avancer. Grâce à Gemini 2.0, Project Astra peut :
- Converser dans plusieurs langues et dans des langues mixtes, avec une meilleure compréhension des accents et des mots rares.
- Utiliser Google Search, Lens et Maps, ce qui le rend plus utile en tant qu'assistant dans votre vie quotidienne.
- Se souvenir de certaines choses, tout en laissant le contrôle à l'utilisateur, pour une expérience personnalisée.
- Comprendre le langage avec une latence presque similaire à celle d'une conversation 100 % humaine.
Toutes ces fonctionnalités doivent à terme être intégrées à Gemini. Google a aussi révélé travailler sur des lunettes connectées, qui tireraient profit de Project Astra pour proposer un assistant complet sans avoir à sortir son smartphone de sa poche.
Google dévoile également Project Mariner, un autre prototype de recherche préliminaire construit avec Gemini 2.0. Son but est d'explorer “l'avenir de l'interaction homme-agent, en commençant par votre navigateur”. Project Mariner est “capable de comprendre et de raisonner sur les informations affichées à l'écran par votre navigateur, y compris les pixels et les éléments web tels que le texte, le code, les images et les formulaires, puis d'utiliser ces informations via une extension Chrome expérimentale pour effectuer des tâches à votre place”, fait savoir Google.
Là encore, Google admet que Project Mariner est encore loin d'être abouti. Il souffre de plusieurs défauts majeurs, certains liés à la sécurité, d'autres à ses capacités intrinsèques. Par exemple, il ne peut faire défiler une page ou cliquer que dans l'onglet actif du navigateur.
Enfin, Jules, un agent IA basé sur Gemini 2 et qui s'intègre directement dans un flux de travail GitHub, est en phase de test. Il peut “résoudre un problème, développer un plan et l'exécuter, le tout sous la direction et la supervision d'un développeur”. Des projets sont par ailleurs en cours pour utiliser l'IA dans le cadre du développement de jeux vidéo.