DLSS 4 et Multi Frame Generation : le grand paradoxe de la technologie star de Nvidia

 
Arme maîtresse de Nvidia dans la communication autour de ses cartes graphiques de génération RTX 50, la génération de trames multiples (Multi Frame Generation, ou MFG), partie intégrante du DLSS 4, est une technologie fascinante, mais qui souffre d’une faiblesse terriblement paradoxale : elle fonctionne à son meilleur pour ceux qui en ont le moins besoin. Cela, la carte graphique d’« entrée de gamme » qu’est la RTX 5060 (sans même parler maintenant de la RTX 5050) nous le prouve hélas.
Le paradoxe du Multi Frame Generation de Nvidia. // Source : Frandroid

Avec le lancement récent – et plutôt discret – de la GeForce RTX 5050, on n’allait évidemment pas y échapper : comme pour tous les précédents GPU sur la nouvelle architecture Blackwell, c’est la technologie de Multi Frame Generation du DLSS 4 qui est le principal argument avancé par communication de Nvidia pour promettre des gains de performance spectaculaires par rapport aux précédents GPU d’entrée de gamme de la marque.

Rien de surprenant à cela, c’est la suite logique d’une démarche entamée dès 2018 avec les RTX 20 et la toute première génération du DLSS, par laquelle Nvidia veut nous convaincre que face au ralentissement de l’évolution matérielle des puces, la meilleure approche à adopter pour obtenir des gains de performance générationnels significatifs n’est plus de compter sur la seule augmentation du nombre de transistors, mais surtout de trouver la manière la plus intelligente possible d’exploiter ces mêmes transistors.

La puce GB207 qui équipe la RTX 5050 est si légèrement équipée que sa version pour PC portable est presque identique à sa version pour PC de bureau. // Source : Nvidia

La manière en question ? Le machine-learning et l’IA bien évidemment – comme le déclarait ouvertement Brian Catanzaro, vice-président de Nvidia en charge du deep-learning appliqué, à Digital Foundry en 2023. Quelle heureuse coïncidence, c’est précisément ce sur quoi les investissements en recherche de Nvidia se sont presque exclusivement concentrés ces dernières années, en réponse aux obsessions actuelles des marchés financiers.

L’IA au secours de la loi de Moore

Car pour rappel, si cela est nécessaire, le principe de la génération de trames est de ne demander aux GPU se chargeant de réaliser le rendu d’un jeu de ne faire ledit rendu de façon « traditionnelle » que pour une partie des images qui s’afficheront à l’écran ; les autres seront interpolées sur la base de l’analyse de ces images natives, ce qui se fait bien plus rapidement que la génération d’une autre image native, et aboutit donc à une cadence d’images finales largement plus élevée, entraînant avec elle l’amélioration de la fluidité et de la clarté de mouvement perçues. Cette interpolation, chez Nvidia, se fait bien évidemment via des algorithmes d’IA.

Déjà présente sur les cartes graphiques RTX 40, la frame generation y permettait la génération d’une image interpolée entre deux images natives. Elle est devenue multi frame generation sur les RTX 50, car ces dernières peuvent générer jusqu’à trois images interpolées entre deux images natives. De quoi donc obtenir, sur le papier, des cadences d’image finale doublées par rapport à celles obtenues avec une génération de trames « simple », chaque groupe de deux images (une image native + une image interpolée) devenant un groupe de quatre images (une image native + trois images interpolées).

Le fonctionnement de la Multi Frame Generation tel qu’illustré par Nvidia.

Et c’est ce tour de passe-passe qui permet donc à Nvidia d’affirmer crânement que la maigre RTX 5050, quand elle s’appuie sur « la panoplie entière de technologies du DLSS 4 », est quatre fois plus performante qu’une RTX 3050 (sans génération de trames), ou même deux fois plus performante qu’une RTX 4060 (avec génération de trame simple).

Ce graphique promotionnel sépare certes les cadences d’image mesurée sans et avec DLSS, mais pour le deuxième cas, il mélange allègrement des mesures sans génération de trames (RTX 30), avec génération de trame simple (RTX 40), et avec Multi Frame Generation (RTX 50). // Source : Nvidia

Entre promesses de miracles et accusations de supercherie

Ces promesses, il est en un sens rassurant de voir que beaucoup de joueurs et joueuses ont décidé de ne pas les avaler sans rechigner… quitte à sombrer parfois dans l’excès inverse. En premier lieu, il y a la compréhension parfaitement légitime qu’il n’est pas pertinent de compter bêtement les images par seconde produites par un traitement de génération de trames sans jamais se poser la question de la qualité des images interpolées : si ces dernières sont bardées d’artefacts visuels flagrants, on ne peut pas dire qu’elles ont un impact positif sur l’expérience de jeu.

Poussée à son point de rupture, cette notion a donné naissance au concept de « fake frames », « images factices » en bon français, qui affecte beaucoup de discussions en ligne et donne à croire que la génération de trame n’est qu’une escroquerie, n’ayant strictement jamais aucun intérêt. Un verdict qui manque bien évidemment un peu de nuance.

Le terme « Fake Frame » est maintenant largement utilisé par les observateurs // Source : Gamers Nexus

La réalité est que la génération de trame est une technologie sur laquelle il est parfaitement impossible d’émettre un jugement absolu et universel, car sa pertinence et son bon fonctionnement dépendent au plus haut degré des conditions dans lesquelles elle est utilisée.

Si ces images sont bardées d’artefacts visuels flagrants, on ne peut pas dire qu’elles ont un impact positif sur l’expérience de jeu.

On peut toujours essayer de tester, relever, pourquoi pas même mesurer « objectivement » la qualité d’interpolation d’une certaine technologie de génération de trames dans un jeu de conditions donné (définition de rendu, d’affichage final, cible de framerate pré ou post-interpolation, performances fixes ou variables…), les conclusions obtenues ne seront valables que pour ce jeu de conditions précis.

En lançant d’abord les RTX 5090 et 5080 comme premières cartes graphiques de la génération Blackwell, dès janvier dernier Nvidia s’est assuré que c’était avec ces GPU surpuissants que les premiers avis sur la MFG allaient se faire. Ça ne doit rien au hasard. // Source : Chloé Pertuis pour Frandroid

Dès lors, la problématique demande à être formulée autrement : dans quelles conditions la génération de trame fonctionne-t-elle le mieux, dans quelles conditions fonctionne-t-elle le moins bien ? Et c’est en fait bien là que l’on trouvera malgré tout quelque chose de peu flatteur à dire à son sujet : les conditions qui lui sont le plus favorables sont aussi celles où elle est la moins utile.

La théorie : la nécessité d’un bon framerate de base

Où l’on va bien sûr parler du fait que pour que l’« amplification de framerate » de la génération de trames fonctionne correctement, elle a besoin de pouvoir compter sur un framerate de base lui-même suffisamment élevé. Ce constat n’a rien de nouveau, il était déjà valable du temps de la génération de trames simple, et se comprend de façon assez intuitive.

Une cadence d’image de base élevée implique qu’il s’écoule un temps d’autant plus faible entre deux images natives générées par le GPU, que le pas d’animation est donc d’autant plus court, et que les deux images en question sont donc d’autant plus proches l’une de l’autre.

Pour que l’« amplification de framerate » de la génération de trames fonctionne correctement, elle a besoin de pouvoir compter sur un framerate de base lui-même suffisamment élevé.

Dès lors, l’algorithme d’interpolation n’a pas à deviner grand chose entre les deux images, et le risque qu’il commette des erreurs est donc faible – et quand des erreurs sont commises, généralement parce que l’algorithme n’a pas su interpoler des mouvements complexes (phénomènes de parallaxe, ou trajectoires non-linéaires d’effets de particules, par exemple), elles sont assez minimes pour que nos yeux parviennent à les ignorer.

Montrons le phénomène par un exercice purement théorique, en faisant tourner le jeu F1 25 sur une RTX 5090, en 1440p natif et avec MFG x4 (trois images interpolées pour chaque image native), d’abord en visant un framerate final de 360 i/s (90 images natives par seconde), puis en le limitant à 120 i/s (30 images natives par seconde), sans aucun autre changement. Voyez alors à quoi ressemble une image native, puis une image interpolée à 360 i/s, puis une image interpolée à 120 i/s :

L’image de « référence », sans aucune forme de frame generation

Alors que l’image interpolée à 360 i/s est à peine discernable de l’image native, l’image interpolée à 120 i/s montre une interpolation clairement mise en difficulté ici par le nuage de projections d’eau entourant la voiture, dont le mouvement est trop chaotique et imprévisible pour l’algorithme. Des contours étranges se dessinent autour du bolide de Lewis Hamilton, de grosses pixelisations se produisent au niveau de son aileron arrière, donnant presque l’impression de voir une image JPEG à la compression mal gérée.

Certes, ces erreurs ne sont pas non plus flagrantes, et peuvent même apparaître relativement subtiles. Mais c’est là qu’il faut aussi prendre en compte un profond changement provoqué par la MFG : le seuil de qualité en dessous duquel les erreurs vont être perceptibles et gênantes en mouvement y est bien plus élevé qu’en génération de trames simples.

Car en génération de trames simple, puisqu’une image affichée à l’écran sur deux est interpolée, il est relativement facile pour notre cerveau de « faire le tri » dans les informations qu’il reçoit, et de choisir inconsciemment de plutôt se focaliser sur les images natives. En MFG x4, ce sont les trois quarts des images à l’écran qui sont interpolées, et notre cerveau passe donc la majorité de son temps à subir les erreurs de celles-ci plutôt qu’à pouvoir se raccrocher aux images natives.

C’est ce que confirme la réalité de l’usage : dans F1 25, les nuages d’aberrations entourant presque constamment les voitures adverses donnent à l’image finale un caractère très artificiel, qui entre en totale contradiction avec le réalisme apporté par le nouveau mode path tracing du jeu. Et c’est avant même de passer à un scénario d’usage plus authentique, où nous remplaçons notre RTX 5090 par une RTX 5060, faisant surgir au passage encore d’autres complications pratiques.

La pratique : la Multi Frame Generation x4 avec une RTX 5060

Pourtant, à la condition expresse qu’on les regarde sans y réfléchir, les chiffres sortis par la RTX 5060 armée de sa MFG ont bien de quoi nous inspirer de merveilleux rêves. Imaginez donc ! Alan Wake 2 tournant en path tracing à plus de 100 i/s ; Cyberpunk 2077, toujours en path tracing (dans son préréglage « RT Overdrive »), à 140 i/s ; Assassin’s Creed Shadows offrant ses pittoresques paysages en paramètres « très élevés » avec ray tracing complet à près de 120 i/s ; ou bien encore le somptueux Senua’s Saga: Hellblade 2 à 150 i/s. Certes, ces chiffres sont obtenus dans un modeste 1080p avec DLSS Super Resolution en mode « qualité » (rendu interne en 720p). N’empêche qu’ils sont déjà prometteurs d’une expérience de jeu absolument remarquable.

Seulement voilà, tout ce que l’on a dit plus haut doit vous avoir préparé à la déconvenue qui arrive. En matière de qualité d’image, Alan Wake 2, nous sert une authentique débandade : la très mauvaise gestion par la MFG du cercle de lumière de notre lampe torche, que l’on utilise presque constamment dans le jeu, est horripilante.

Alan Wake 2 : lors d’un mouvement de caméra, regardez la façon dont la végétation au milieu dans la lumière de la lampe torche s’est démultipliée sur cette image interpolée. En mouvement, l’effet est tout particulièrement déplaisant.

Alors on se résout à désactiver purement et simplement la génération de trames ; on retrouve alors un framerate se baladant autour de la ligne des 40 i/s, évidemment moins vendeur, mais qui nous épargne au moins cette distraction constante… et permet au passage à la latence système de devenir acceptable, à 70 ms.

Avec génération de trames, notre brave 5060 nous inflige un temps de réponse de presque 120 ms, à peine dignes d’un jeu console à 30 fps mal optimisé ; les commandes sont alors très lourdes à la manette, crispantes au possible à la souris. La technologie Nvidia Reflex, censée contrebalancer l’impact négatif de la génération de trames, n’est pas toujours capable de miracle (quand à son évolution Nvidia Reflex 2, six mois après son annonce en janvier 2025, on attend toujours qu’elle donne le moindre nouveau signe de vie).

Le bilan est moins catastrophique sur les autres jeux, mais on reste très loin de l’idéal. Dans Cyperpunk 2077, la mauvaise intégration des éléments d’interface dynamiques à la MFG les rend à peine lisibles en mouvement.

Voyez ce qui arrive un peu trop souvent aux bulles de dialogue dynamiques dans Cyberpunk 2077.

Dans Assassin’s Creed Shadows et Hellblade 2, les effets d’occlusion/désocclusion sur les décors faits de végétation très dense cause là encore des déraillements bien trop visibles de l’interpolation.

Assassin’s Creed Shadows : notez les nombreux artefacts autour du personnage de Yasuke et de son arc. Sans être horribles, ils sont assez omniprésents pour donner la constante impression d’une image très « sale ».

Pour ces trois jeux, la solution n’est peut-être pas de désactiver entièrement la génération de trame, mais au moins de se contenter d’une génération simple (x2). Cela ne permet d’obtenir « que » 70 à 80 i/s, mais au moins, les défauts d’interpolation, quoique toujours très visibles, deviennent acceptables, pour la raison que l’on a expliqué plus haut.

Hellblade 2, comme tous les jeux Unreal Engine 5, pose d’énormes problèmes à l’algorithme d’interpolation du DLSS 4 : les détails de l’herbe au sol sont complètement perdus, les poteaux en arrière-plan très bruités, certains pixels refusent purement et simplement de se dessiner à proximité des cheveux de l’héroïne…

Une petite parenthèse s’impose à cet instant : vous vous étonnez peut-être de constater que jusqu’à maintenant, nous n’avons mentionné dans cet article que des jeux solos très gourmands graphiquement, au détriment des jeux multijoueurs compétitifs (à l’exception de F1 25). C’est parce que ces derniers sont extrêmement minoritaires dans la liste des jeux prenant en charge la MFG à ce jour, et pour cause : dès que la génération de trames y introduit la moindre milliseconde de latence additionnelle, et compromet donc les reflex du joueur, on peut considérer qu’elle devient néfaste. Le bon usage de la génération de trame a toujours été d’améliorer la clarté de mouvement et le confort visuel dans des jeux où l’on veut bien échanger cela contre un peu de réactivité.

Pas assez de VRAM ? Ça rame.

Ce qui nous amène à cette question existentielle : si la MFG ne se montre totalement pertinente que pour prendre des jeux solo tournant déjà sans très bien sans elle, et porter leur framerate vers des sommets presque vains (200 i/s et plus), est-ce vraiment ça que l’on veut sur une carte graphique d’entrée de gamme ? Il semblerait bien plus productif d’améliorer ces mêmes jeux en maintenant leurs performances de base, mais en améliorant leur qualité visuelle. C’est d’ailleurs précisément ce que fait le DLSS Super Resolution, et c’est bien la raison pour laquelle cette technologie est appréciée par les joueurs avec une telle unanimité.

Mais même à supposer que l’on soit prêt à subir les interpolations défaillantes et la latence pénible provoquée par la MFG à des framerates bas, pour pouvoir en échange augmenter la définition d’affichage d’un jeu dernier cri ou activer certaines de ses options graphiques les plus gourmandes, ce sont alors les choix de conception hautement contestables de Nvidia pour ses GPU « abordables » qui viendront alors se mettre en travers de notre route. Vous l’auriez sans doute deviné : on parle surtout ici des bien trop maigres 8 Go de mémoire vidéo embarqués par la RTX 5060.

Star Wars Outlaws avec RTX Dynamic Illumination sur RTX 5060 : un mirage magnifique, mais de bien trop courte durée…

Auriez-vous par exemple voulu goûter à la fonction RTX Dynamic Illumination de Star Wars Outlaws, qui améliore considérablement la qualité de son éclairage global ? Le jeu lui-même admettra que, même en 1080p vous rencontrerez des difficultés avec moins qu’un RTX 4070 (12 Go de VRAM).

Pourtant, les premières minutes de jeu paraissent étonnamment agréables : on y taquine les 100 i/s, avec par ailleurs une latence et une qualité visuelle pour une fois plutôt acceptables – le moteur Snowdrop du studio Ubisoft Massive est l’un de ceux collaborant le mieux avec les algorithmes de génération de trames, quels qu’ils soient.

La génération de trames refuse purement et simplement de s’activer, même en mode x2, rejetant la faute sur… une quantité de mémoire vidéo trop faible.

Mais le temps passant apportera avec lui des saturations mémoires de plus en plus fréquentes, puis, inexorablement, un crash pur et simple, dans le contexte duquel la MFG vous fera une bien belle jambe.

Dans The Talos Principle Reawakened, sous Unreal Engine 5, rebelote : la MFG laisse un premier temps croire que l’on pourra profiter du jeu en 1440p avec DLSS Super Resolution en mode qualité, paramètres graphiques élevés, à un framerate extrêmement confortable de 180 i/s. Et puis la mémoire finit invariablement par manquer, causant ici des échecs de chargement des textures ruinant l’apparence visuelle du jeu.

The Talos Principle Reawakened : voilà ce à quoi aboutit la combinaison d’un affichage en 1440p et de la MFG avec une carte à 8 Go de VRAM.

Le cas le plus extrême que nous avons rencontré lors de nos tests est celui d’Indiana Jones et le Cercle ancien. Dans ce jeu notoirement gourmand en mémoire vidéo, rien que l’activation de la génération de trames s’avère très excessivement capricieuse : en 1080p avec DLSS Super Resolution en mode qualité (720p interne), il n’y a guère qu’avec tous les paramètres graphiques réglés au niveau le plus bas possible que la frame generation (simple ou multiple) fonctionne.

Ayez le malheur de vouloir relever d’un cran un ou deux de ces paramètres, et la frame generation vous inflige un refus d’obstacle, rejetant la faute sur… une quantité de mémoire vidéo disponible trop faible.

Dans Indiana Jones et le Cercle Ancien sur RTX 5060, tout ce que sait faire la frame generation du DLSS, c’est spammer la console de commande pour chouiner qu’elle ne dispose pas d’assez de VRAM !

C’est que la génération de trame elle-même est consommatrice de VRAM ; et quand bien même Nvidia promettait que l’un des avantages du nouveau modèle Transformer intronisé par le DLSS 4 était une empreinte mémoire réduite, la pratique ne nous a jamais vraiment permis de constater cela au delà du marginal.

La fracture sociale du jeu vidéo

Pour sûr, l’expérience que l’on a de la MFG est totalement différente quand on l’essaie sur une RTX 5090, ou même sur les plus raisonnables (à peine) RTX 5080 ou 5070 Ti. Avec ces GPU qui offrent déjà assez de puissance pour prendre à peu près tout ce qu’on peut leur envoyer à la figure et l’afficher correctement à framerate élevé sur un écran 4K, la MFG est un outil toujours totalement dispensable, mais que l’on n’hésite jamais à activer : pour peu que l’on pousse l’opulence jusqu’à également posséder un écran 240 Hz, 360 Hz ou plus, on associera alors une qualité d’image royale à une clarté de mouvement sidérante, sans aucune contrepartie réellement perceptible.

Voilà ce que la MFG sait faire le mieux : prendre une expérience de jeu déjà ultra-confortable, et la rendre encore plus luxueuse. Très bien pour celles et ceux qui ont les moyens de se l’offrir. Mais à notre époque où le jeu vidéo semble déjà condamné à devenir un loisir de moins en moins accessible (en témoigne le prix des consoles, qui ne fait plus que monter au fil des années au lieu de descendre), peut-être aurait-on plutôt besoin de nouvelles technologies qui évitent d’amplifier cette nouvelle forme de fracture sociale.


Si vous voulez recevoir les meilleures actus Frandroid sur WhatsApp, rejoignez cette discussion.