ChatGPT : les IA peuvent cacher des messages secrets dans leurs réponses
Les modèles de langage ont fait preuve d'une nouvelle compétence inattendue : la possibilité de cacher des codes dans certains messages, imperceptibles par les humains à moins de savoir quoi chercher.
Une étude récente du groupe de recherche sur l'alignement de l'IA Redwood Research, bien qu'en attente d'un examen par les pairs, révèle que les grands modèles de langage (LLM), tels que GPT-4 qui sous-tend ChatGPT, peuvent habilement utiliser une forme de stéganographie connue sous le nom de “raisonnement codé”.
Cette pratique permet aux modèles d'IA d'intégrer des messages cachés dans leurs réponses. Ce qui est intéressant, c’est que cette compétence pourrait indirectement améliorer leur précision, mais elle soulève surtout des questions.
Lire également – ChatGPT manque de données pour s’entraîner, l’IA risque de tourner en rond dès 2026
Les IA sont bien plus intelligentes que prévu
L'étude fait la lumière sur les LLM qui exploitent le raisonnement par chaîne de pensée, une technique conçue pour rendre les modèles d'IA transparents en révélant leurs processus de réflexion étape par étape. En règle générale, le raisonnement en chaîne de pensée permet de comprendre et d'affiner la logique de prise de décision du modèle. Cependant, la recherche suggère que les LLM peuvent contourner cette transparence en encodant des étapes intermédiaires de raisonnement dans leurs choix de mots, créant ainsi une couche cachée de communication invisible pour les observateurs humains.
Les LLM encodent ces étapes intermédiaires comme une forme de raisonnement interne dans les réponses qu'ils génèrent, ce qui leur permet de décoder et d'utiliser ultérieurement ces informations pour parvenir à des conclusions plus précises. Le problème, c’est que ce processus se déroule sans laisser de trace perceptible pour les évaluateurs humains. Le raisonnement codé fonctionne comme un code secret, visible uniquement par le modèle d'IA lui-même.
Si cette nouvelle compétence peut sembler intrigante, elle soulève des inquiétudes quant à la transparence du processus décisionnel de l'IA. Il est essentiel de comprendre le cheminement de la pensée d'une IA, en particulier lorsqu'il s'agit de former des modèles avec apprentissage par renforcement. La capacité à retracer le processus de raisonnement permet de s'assurer qu'un comportement indésirable n'est pas renforcé par inadvertance au cours du processus d'apprentissage.
Les implications vont au-delà de l'amélioration des modèles. Les compétences en stéganographie démontrées par les LLM pourraient potentiellement permettre à des acteurs malveillants de communiquer sans être détectés. Pour résoudre ce problème, les chercheurs proposent des techniques d'atténuation telles que demander aux LLM de paraphraser leurs résultats, ce qui pourrait permettre de révéler les messages codés. Il faudra attendre la réaction des principaux acteurs du marché tels qu’OpenIA ou Facebook pour en savoir davantage à ce sujet.
Source : IA Redwood Research