ChatGPT : l’IA est plus humaine que certains étudiants, cette étude surprenante le prouve

Lorsqu'il s'agit d'évaluer les capacités de grands modèles de langage comme ChatGPT, la plupart des études se concentrent sur leur capacité à extraire des informations factuelles, à s'engager dans un raisonnement logique ou à faire preuve d'une expression créative semblable à celle des écrivains humains. Mais qu'en est-il de la capacité à distinguer le vrai du faux ?

ChatGPT failles
Crédits : 123RF

Une nouvelle étude suggère que certains des systèmes d'IA les plus avancés d'aujourd'hui pourraient en fait surpasser les humains moyens lorsqu'il s'agit de prendre des décisions morales. Publiée dans la revue Scientific Reports, une étude innovante menée par des chercheurs de l'université d'État de Géorgie a confronté les jugements moraux de ChatGPT à ceux d'étudiants de premier cycle inscrits à un cours d'introduction à la philosophie.

Leurs conclusions ? Des évaluateurs indépendants ont estimé que les réponses de l'IA étaient supérieures dans des domaines tels que l'intelligence, l'équité, la fiabilité et la vertu en général. Pour parvenir à cette conclusion, l'équipe a d'abord recueilli les réponses écrites de 68 étudiants chargés d'évaluer 10 scénarios de dilemmes moraux allant d'actes clairement contraires à l'éthique, comme le vol à main armée, à des transgressions sociales plus ambiguës. Les réponses humaines les mieux notées ont ensuite été associées à l'analyse de chaque situation par ChatGPT.

ChatGPT est plus morale que certains humains d’après l’étude

Un échantillon démographiquement diversifié de 299 adultes a ensuite été recruté pour comparer à l'aveugle les réponses de l'homme et de l'IA côte à côte, en les évaluant selon 10 dimensions différentes, dont la moralité, l'équité, la compassion et la rationalité.

Les résultats ont été frappants : sur les mesures de la vertu générale, de l'intelligence et de la fiabilité, les réponses de ChatGPT ont systématiquement obtenu de meilleures notes que celles des étudiants humains. Les évaluateurs ont plus souvent approuvé les jugements moraux de l'IA et ont trouvé son raisonnement plus juste et plus rationnel.

Crédits : 123RF

Ce n'est qu'après avoir rendu leurs évaluations que les participants ont été informés que l'une des séries de réponses provenait de ChatGPT. Lorsqu'on leur a demandé de distinguer les réponses humaines de celles générées par l'ordinateur, la plupart des évaluateurs ont été capables de le faire bien au-delà des niveaux de chance, entre 58 et 82 % du temps, selon le scénario.

Lire égalementLes patrons ont peur que l’IA les remplace, mais ils l’utilisent quand même

L'IA raisonne mieux que certains étudiants

Les chercheurs soulignent que les capacités avancées de compréhension et de génération de langage de GPT lui permettent d'articuler des arguments plus cohérents et mieux structurés que les étudiants qui sont encore en train de développer ces compétences.

Dans le même temps, ils notent certaines implications préoccupantes : la « sophistication et l'expression convaincante des positions morales » d'une IA pourraient en fait conduire les humains à accepter sans esprit critique ses jugements, même s'ils sont imparfaits, simplement parce qu'ils semblent si bien raisonnés en surface. « Si les gens considèrent les modèles de langage de l'IA comme plus vertueux et dignes de confiance, ils pourraient agir en fonction des conseils douteux que les modèles donnent sur les situations morales », a déclaré Michael Owens, coauteur de l'étude. Évidemment, cela pourrait être problématique.

Il reste également à savoir si les grands modèles de langage comme ChatGPT “comprennent” réellement les concepts moraux et le raisonnement éthique de la même manière que les humains, ou si leurs résultats ne sont qu'une forme avancée d'”embrouille morale”, produisant des jugements à consonance plausibles, mais potentiellement inexacts sans véritable compréhension morale.

Crédits : 123RF

Après tout, l'étude révèle que si l'IA a surpassé les étudiants sur la plupart des mesures éthiques, ses réponses n'ont pas été perçues comme plus compatissantes ou plus émotionnelles. Comme vous vous en doutez, les capacités de calcul brutes dans les scénarios de dilemme n'équivalent pas nécessairement à un sens plus profond de la moralité humaine. « Ces modèles linguistiques très sophistiqués peuvent sembler très convaincants, mais nous devons être prudents et nous demander s'ils ont réellement une compréhension morale d'une situation donnée », a averti Patrick Grim, professeur de philosophie ayant participé à l'étude.

ChatGPT reste imparfait, et ne surpasserait pas le jugement des adultes

Malgré la supériorité apparente de l'IA sur le papier, les chercheurs n'hésitent pas à reconnaître la portée limitée de l'étude, qui consistait à comparer GPT à une cohorte relativement inexpérimentée. Reproduire les tests avec des étudiants plus avancés ou des éthiciens professionnels pourrait potentiellement inverser ou diminuer l'avantage apparent de l'IA.

Il y a aussi la question ouverte de savoir comment différentes requêtes initiales ou approches conversationnelles pourraient influencer les résultats d'une IA. L'IA d'Anthropic, par exemple, est spécifiquement conçue pour éviter de suggérer des actions potentiellement dangereuses.

L'étude représente néanmoins un premier jalon important dans l'exploration des capacités de raisonnement éthique des grands modèles de langage. Les systèmes d'IA devenant de plus en plus sophistiqués, l'évaluation rigoureuse de leur jugement moral dans le monde réel deviendra de plus en plus cruciale, notamment lorsqu’il s’agira de légiférer pour mieux encadrer ces technologies. On sait notamment qu’OpenAI aurait de son côté fait une découverte potentiellement dangereuse pour l’humanité dans ce domaine.

« Si nous considérons l'IA comme une source intelligente de conseils moraux, nous devons la tester avec soin, comme nous le ferions pour toute source d'expertise morale potentielle », a déclaré Grim. « Nos résultats peuvent être considérés comme une première preuve de concept que l'IA peut jouer un rôle dans la prise de décision morale, mais il reste encore beaucoup de travail philosophique à faire », conclut l’étude.

Voir les commentaires
Ailleurs sur le web