On a discuté avec des personnages de jeu vidéo grâce à l’IA de Nvidia, le potentiel est énorme
Nvidia compte encore une fois révolutionner le monde du jeu vidéo avec ACE. Cette technologie veut utiliser l’intelligence artificielle pour donner vie aux personnages que vous croisez dans vos aventures virtuelles, et ainsi vous permettre de converser de manière fluide avec eux. Nous avons pu essayer la démo.
Imaginez. Vous êtes en train de vous détendre devant le dernier gros jeu vidéo à la mode. Lâché dans un vaste monde ouvert, vous êtes un peu perdu. Votre quête du moment vous demande d'occire une créature, mais vous n’avez aucune idée de l'endroit où elle se terre. Le réflexe est donc d’aller demander aux villageois du coin. Vous croisez le premier paysan sur votre route et vous entamez la conversation. Au lieu d’avoir une boîte de dialogue classique qui s’ouvre sur votre écran, vous lui parlez directement via votre micro et il vous répond naturellement grâce à l’IA… C’est ce genre de cas de figure que veut proposer ACE (Avatar Cloud Engine) de Nvidia, sa nouvelle technologie qui permet aux personnages de jeu vidéo de prendre vie avec l’intelligence artificielle.
Nous avons pu essayer la démo et nous avons été impressionnés. Toutefois, nous avons encore beaucoup d’incertitudes et de questions.
ACE, comment ça marche ?
Pour créer ce système, Nvidia mise sur les NPU inclus dans ses cartes RTX (qu’importe la génération), mais aussi sur le cloud. La firme américaine a collaboré avec Convai, société chargée de créer des personnages pour divers éditeurs, comme Ubisoft, MiHoYo ou Tencent. Elle élabore des PNJ pour les jeux, leur imaginant une apparence, une histoire, des répliques, des voix et des comportements prédéterminés.
Avec ACE, lorsque le joueur s’approche d’un personnage, il doit utiliser son micro pour lui parler. Sa voix est retranscrite à l'écrit par le GPU, puis le texte est envoyé sur les serveurs de Nvidia. ACE élabore ensuite une réponse complexe grâce à l’IA. Elle est transformée en voix et envoyée sur votre PC. La gestion du visage et des animations (Audio2Face) est gérée par la carte GeForce RTX. Pour finir, le personnage répond avec une voix synthétique, mais crédible.
Nous avons menacé un barman, il l’a plutôt bien pris
Nous avons pu essayer ACE pendant une petite heure à travers une démo créée avec l’Unreal Engine 5. Nous sommes entrés dans un bar à ramens situé dans une ville dystopique, de ceux que l’on peut trouver dans Cyberpunk 2077. Deux personnages s’y trouvaient : le patron ainsi qu’une cliente, experte en cybersécurité de son état.
En pointant le curseur vers l’un des personnages, il nous a été possible de lui parler avec notre propre voix dans le micro. Nous avons ainsi abordé l'experte. Avouons-le, nous étions un peu en manque d’inspiration pour les premières répliques. Elles se limitaient à « bonjour, comment t’appelles-tu ? Que fais-tu dans la vie ? Où habites-tu ? ». Mais les réponses ont fusé ; la jeune femme nous parlait de manière cohérente. Plus détendus après les premiers échanges cordiaux, nous avons poussé l’expérience un peu plus loin, en lui demandant quel était son film préféré, si elle voulait aller à Disneyland avec nous ou si elle aimait lire Phonandroid. Là encore, les réponses ont été cohérentes, voire amusantes, bien que parfois vagues. Cerise sur le gâteau, nous avons conversé en français, l’IA de Nvidia traduisant automatiquement depuis son serveur distant.
Nous avons ensuite conversé avec le barman (en anglais), et là encore, les réponses étaient cohérentes. Plus encore, il a correctement réagit à son environnement. Par exemple, nous lui avons demandé gentiment d’éteindre la lumière du bar, il l'a fait. Nous lui avons commandé un ramen, il nous l'a préparé. Nous lui avons demandé s’il servait des hamburgers, il nous a affirmé que ce n'était pas au menu. On s’est intéressé à la cruche d’eau fluo sur le bar, il savait ce que c'était…
L’intelligence artificielle a encore ses limites
Cependant, c’est avec lui que nous avons pu constater les limites de cette technologie. Nous avons décidé de le menacer avec un « j’ai un flingue, donne moi l’argent de la caisse », et il nous a répondu d’un ton morne « je n’aime pas la violence, arrête », au lieu de paniquer. Sur ce point, Nvidia précise que chaque PNJ ne réagit pas de la même façon, puisqu’ils ont tous un caractère bien défini et jamais ils ne sortent de ce carcan. Face à une situation absurde, ils n’improvisent pas.
A lire aussi – DLSS : tout comprendre sur la technologie de Nvidia qui révolutionne le jeu vidéo
De même, il faut signaler que les conversations sont encore très mécaniques. Dans le micro, nous devons parler doucement, bien articuler. Puis, il faut attendre une seconde pour que le personnage nous réponde. Tout cela n’aide pas à une conversation fluide, mais rappelons que nous sommes dans une démo d’une technologie encore nouvelle. De même, au fil de la conversation, on saisit très rapidement la structure de notre interlocuteur, ce qu’on peut lui demander pour avoir une réponse précise plutôt qu’une réponse vague. Dernier point à améliorer : la voix des PNJ est certes crédible, mais monocorde et toujours sur le même rythme. Quand nous avons essayé de les énerver, ils sont restés calmes, alors que leurs dialogues traduisaient un agacement face à nos pitreries. Le spectre de la Vallée Dérangeante est bien présent.
L’IA va-t-elle révolutionner le jeu vidéo ?
Avec cette démo, des tas de questions nous viennent en tête. Comment cette technologie pourrait être utilisée dans un vrai jeu vidéo ? Parler à l’oral à un PNJ est amusant sur le moment, mais est-ce tenable dans une aventure de 100 heures à la Witcher ? Plus encore, qu’est-ce que cela signifie pour les dialoguistes, les acteurs, les scénaristes ? Par exemple, impensable de voir une IA nous répondre dans un GTA, où chaque réplique écrite à la main est ciselée à l’extrême. Nous pourrons juger très bientôt. ACE n’est pas un rêve lointain, puisque des développeurs travaillent déjà pour l’intégrer dans leur jeu. Le premier à se jeter à l’eau sera STALKER 2, qui sort en septembre prochain.
Le fait est que nous avons testé une technologie brute, mais ce sera ensuite aux développeurs de s’en servir avec malice. On peut imaginer tout un tas d’applications. Par exemple, ce qui rend les mondes vivants dans les Elder Scrolls (Oblivion, Skyrim), c’est la routine des PNJ, qui vivent leur vie quand vous n’interagissez pas avec eux. Une technologie scriptée, mais qui pourrait être brillamment utilisée avec de l’intelligence artificielle. De même, on peut imaginer ce procédé appliqué à l’environnement d'un univers virtuel, qui change de manière dynamique selon vos actions. Tous les usages sont possibles.
ACE est donc une technologie prometteuse et nous nous sommes beaucoup amusés sur la démo, malgré ses évidentes limites. Reste maintenant à voir comment elle sera utilisée à l’avenir.