Présent au CES 2024, Nvidia a mis les bouchées doubles sur l'intelligence artificielle en nous laissant discuter avec son intelligence artificielle, tranquillement assis dans son bar cyberpunk.

Vous le savez déjà : la grande annonce de Nvidia sur le CES 2024 est la présentation de sa nouvelle gamme de cartes graphiques RTX 40 SUPER. Les RTX 4080 SUPER, RTX 4070 Ti SUPER et RTX 4070 SUPER s’apprêtent toutes trois à creuser l’écart avec la concurrence, tout en permettant aux consommateurs d’avoir selon les produits de meilleures performances ou un meilleur prix. Tout le monde s’y retrouve.

Mais voilà : les cartes graphiques ne se prêtent pas vraiment au jeu de la prise en main, et Nvidia est désormais une entreprise qui pousse l’intelligence artificielle en priorité. Dans ce cadre, nous avons pu enfin interagir avec ACE, pour Avatar Cloud Engine. Une suite de nombreux services qui s’additionnent pour nous permettre de discuter en temps réel et librement avec n’importe quel personnage non joueur au sein de n’importe quel jeu supportant cette technologie.

Pénard au bar

C’est dans une salle sombre du Cosmopolitan de Las Vegas que nous avons enfin pu faire la rencontre de Jin, le fameux patron du bar à ramens servant de cadre à la démonstration technologique Kairos. Une petite scène développée en 3D pour mettre en avant l’addition de nombreux services propulsés par la team verte, dont deux en priorités : Audio2Face, qui permet d’animer dynamiquement le visage d’un modèle 3D pour lui faire suivre une piste audio. Et RIVA Automatic Speech Recognition, qui grâce à un grand modèle de langage est capable de convertir à la volée une piste audio en texte, qui pourra être interprété par la suite par toutes sortes de service.

Dans la démo Kairos que nous avons prise en main, la plateforme Convay est centrale. C’est elle qui permet de définir les traits de caractère d’un personnage, et tout ce qui fait sa personnalité. Pensez à une fiche de personnage de Donjons et Dragons poussée à l’extrême, ou une fiche personnage que créerait un romancier. Cette précision est importante, puisqu’elle donne tout un cadre à l’IA : il est impossible de la prendre à défaut ou de la faire sortir de ce carcan très limité, mais aussi très précis.

Dès lors, en additionnant toutes ces technologies, il devient possible de véritablement converser naturellement avec le tenancier de l’établissement, mais aussi Nova, la cliente habituée ajoutée il y a peu par Nvidia. Les deux IA peuvent se parler entre elles, le contexte des conversations est retenu, mais le plus important : vous pouvez vous adresser librement à n’importe lequel d’entre eux, qui vous répondra avec les traits de personnalité définis auparavant. Jin est un homme calme, poli, quand Nova est un peu plus impertinente.

Je dois le confesser : avant que cette démo ne soit mise entre mes mains, je ne pensais rien de cette technologie. « Pourquoi j’irais taper la discut’ avec des PNJ ? » me suis-je toujours dit. Sorti de cette démonstration, j’avais des étoiles dans les yeux et un sourire reliant mes deux oreilles. Le fait de pouvoir parler librement à ces personnages a un effet fou, de l’ordre de l’émerveillement enfantin. Et même après avoir tenté une ou deux fois de les prendre à défaut, en essayant de les ordonner d’être un personnage différent (un test simple et efficace contre l’IA), le procédé de Nvidia a tenu tête. Dès lors, la technologie s’est effacée pour laisser place à une conversation entre un personnage fictif, mais complet, et un simple humain qui s’amuse.

Nous avons même eu le droit à un petit bonus. Si Nvidia Ace ne supporte officiellement qu’une poignée de langues proches de la culture américaine, le français n’en fait absolument pas partie. Cependant, le grand modèle de langage utilisé a bien été entraîné, et les représentants de Nvidia ont débloqué notre langue natale devant nos yeux en quelques clics sur une interface terriblement simple à prendre en main. Ici, l’intelligence artificielle a conservé son bagou, et le seul élément qui n’était plus vraiment à niveau était le timbre de la voix, bien moins naturel.

Nvidia Ace a bien sûr ses limites. La première est qu’il y a toujours un petit temps de latence entre notre question et la réaction, qui ne permet pas d’effacer cette nouvelle « uncanny valley » se créant avec l’avènement de l’intelligence artificielle. La deuxième est qu’aujourd’hui, Ace n’anime que les lèvres du sujet pour la synchronisation labiale, mais les émotions du texte ne se lisent toujours pas sur le visage des personnages, qui reste toujours assez monolithique. Ceci étant dit, il y a fort à parier qu’il s’agisse d’une prochaine frontière à dépasser pour la team verte, qui a déjà fait la moitié du chemin.

Et lorsqu’on pense à l’intégration de cette technologie dans des jeux comme Baldur’s Gate 3, on ne peut s’empêcher de retrouver cet émerveillement enfantin en pensant au futur du jeu vidéo.