Ces robots de Google passent de longues heures à regarder des vidéos, saurez-vous deviner pourquoi ?
Google développe une nouvelle méthode d'apprentissage pour ses robots en les faisant regarder des vidéos, tout comme les humains. Cette approche innovante permet à ces machines de naviguer et d'accomplir des tâches avec une précision impressionnante.
L'innovation technologique continue de redéfinir notre environnement quotidien. Des dispositifs toujours plus sophistiqués sont intégrés dans divers aspects de notre vie afin de rendre nos tâches quotidiennes plus faciles et plus efficaces. Par exemple, Tesla, sous la direction d'Elon Musk, prévoit d'intégrer plus de 1 000 robots humanoïdes Optimus dans ses usines dès l'année prochaine. Cette ambition montre à quel point ces machines commencent à prendre de plus en plus de place dans notre vie.
Depuis novembre 2021, les bureaux de Google à Mountain View ont accueilli des robots ménagers avancés. Ces machines, développées par le laboratoire X de l’entreprise, sont capables de nettoyer des tables, remettre les chaises en place et trier les déchets. Mais leur capacité à apprendre de manière autonome comme des humains est impressionnante.
Les robots RT-2 de Google peuvent apprendre en regardant plusieurs vidéos à la fois
Les robots RT-2 de Google, sont équipés du modèle d'intelligence artificielle Gemini 1.5 Pro. Ils apprennent de la même manière qu'un stagiaire humain, c'est-à- dire en regardant des vidéos. Ce modèle d’IA lui permet d’analyser de longues séquences vidéo en même temps afin de comprendre et de mémoriser beaucoup d'informations à la fois. Les chercheurs filment des lieux spécifiques, comme des maisons ou des bureaux, et notre humanoïde les visionne pour apprendre à naviguer et à accomplir des tâches dans ces environnements.
En pratique, ces robots ont montré une capacité impressionnante à suivre des consignes et à accomplir des tâches complexes. Dans une zone de 9000 mètres carrés, ces humanoïdes équipés de Gemini ont réussi à suivre plus de 50 instructions différentes avec un taux de réussite de 90 %. Ils peuvent réaliser des tâches multi-étapes, comme vérifier la disponibilité d'une boisson dans un réfrigérateur. Bien que cette technologie ne soit pas encore prête pour une commercialisation immédiate, elle ouvre la voie à de nouvelles applications dans des domaines variés, tels que la santé, la logistique et les services de nettoyage.
How can Gemini 1.5 Pro’s long context window help robots navigate the world? 🤖
A thread of our latest experiments. 🧵 pic.twitter.com/ZRQqQDEw98
— Google DeepMind (@GoogleDeepMind) July 11, 2024