in

NVIDIA DLSS 3 arrive sur les RTX 30 et RTX 20, mais il ne sera pas aussi rapide.

NVIDIA DLSS 3 arrive sur les RTX 30 et RTX 20, mais il ne sera pas aussi rapide.

Bien que nous en ayons parlé dans des articles successifs sur les performances et la technologie de DLSS 3 ou DLSS 3.0, comme vous le souhaitez, les critiques se retournent une fois de plus contre NVIDIA. Le lancement de la RTX 40 fait les gros titres, et pas pour le mieux, alors laisser cette nouvelle version du Super Sampling d’apprentissage profond uniquement pour les nouveaux GPU semble trop mal se passer au siège de Huang. En conséquence, plusieurs employés, programmeurs et même le vice-président de la recherche sur l’apprentissage profond de la société ont laissé entendre que nous pourrions voir DLSS 3 dans les RTX 30 et RTX 20.

Il ne fait aucun doute que la nouvelle version de l’algorithme de NVIDIA a beaucoup à voir avec la 4e version des Tensor Cores de la RTX 40, mais c’est Bryan Catanzaro lui-même qui l’explique le mieux pour mieux comprendre les limites entre le logiciel et le matériel.

L’exclusivité a un prix et un temps ?

Eh bien, nous connaissons déjà le prix, le calendrier n’est pas clair, parce que nous ne parlons pas d’un développement pour une seule architecture, même si au début ce sera comme ça, comme le dit Catanzaro lui-même :

Depuis la création du groupe, DLSS 3 est un travail de recherche appliquée sur l’apprentissage profond. J’ai hâte que les gens jouent avec. DLSS 3 est basé sur l’accélérateur de flux optique (OFA) qui a été considérablement amélioré dans Ada par rapport à Ampere : il est plus rapide et de meilleure qualité.

L’OFA existe sur les GPU depuis Turing. Cependant, il est nettement plus rapide et de meilleure qualité en Ada, et nous l’utilisons pour DLSS 3. [RTX 2000 y 3000] estiment que DLSS 3 est lent, a une qualité d’image médiocre et n’augmente pas le nombre de FPS.

Et bien sûr, il s’agit d’une limitation que les deux séries précédentes de GPU RTX ne semblent pas être en mesure d’exécuter de manière suffisamment fluide, bien que NVIDIA n’ait pas expliqué les changements internes réellement apportés au Tensor Core de 4ème génération. Mais, Catanzaro laisse une porte ouverte très intéressante.

DLSS 3 pour RTX 30 et RTX 20, est-ce possible, quand ?

DLSS-3-performance-performance

Eh bien, il n’y a pas de date, en fait, ce n’est qu’une possibilité dans l’air et non une confirmation en tant que telle, mais le vice-président ajoute de l’huile sur le feu face aux critiques d’exclusivité :

En théorie, il est possible qu’avec des recherches et une ingénierie supplémentaires, nous puissions faire fonctionner cette technologie sur d’autres cartes, bien que cela n’apporterait pas autant d’avantages. La version actuelle ne fonctionne que sur les cartes de la série 4000.

Le problème est qu’il semble que DLSS 3 apporterait une latence supplémentaire qui tuerait les performances et l’expérience de jeu, il semble donc que Reflex soit la solution :

NVIDIA Reflex supprime une latence importante dans le pipeline de rendu des jeux en éliminant la file d’attente de rendu et en synchronisant plus étroitement le CPU et le GPU. L’association de NVIDIA Reflex et de DLSS3 permet d’obtenir des FPS beaucoup plus rapides à peu près à la même latence du système. Le runtime NVIDIA Remix est un “moteur de jeu inverse” assez compliqué qui trouve des objets dans les appels de dessin, ce qui nous permet de dériver des vecteurs de mouvement.

Le runtime ne prend aucune décision artistique, il travaille avec les ressources originales et de remplacement qui lui sont fournies. Les moddeurs peuvent choisir d’utiliser des outils d’intelligence artificielle pour améliorer le matériel ou de tout faire à la main. Les particules et les décalcomanies fonctionnent “simplement”. Certains hacks DX nécessitent un traitement spécial ou doivent être désactivés.

En d’autres termes, DLSS 3 est lié à Reflex si vous voulez garder les valeurs de latence plus ou moins identiques et donc augmenter les FPS, tandis que sa mise en œuvre avec les RTX 30 et RTX 20 va représenter un effort de programmation supplémentaire pour NVIDIA et les développeurs. Cela dit, la porte est ouverte, mais il est presque certain que cela prendra beaucoup de temps.

Le problème du super échantillonnage de l’apprentissage profond 3

NVIDIA DLSS 3 Comment ça marche

Le problème que Catanzaro ne mentionne pas est l’interpolation des images. En d’autres termes, DLSS 3 augmente le nombre d’images par seconde car il génère des images fausses et complètes qu’il intercale entre les vraies. Il s’agit d’une simulation de performances améliorées par l’IA. Par conséquent, NVIDIA ne se contente plus de réduire la résolution pour l’augmenter ensuite, elle crée directement le FPS.

Si l’on tient compte du fait que l’OFA était déjà présent dans les RTX 30 et RTX 20 pour DLSS dans ses différentes versions, le problème, comme d’habitude dans le domaine du matériel, réside dans ce que l’on appelle les Tiers, c’est-à-dire les différentes fonctionnalités qui sont ajoutées au matériel ou au logiciel au fur et à mesure de son évolution et que le précédent ne possède pas.

Logiciel matériel NVIDIA DLSS Tier

Le problème est que nous ne savons toujours pas quel niveau utilise DLSS 3 et quelles sont ses améliorations, NVIDIA ne l’a pas précisé, mais ce qu’il essaie de faire est de minimiser l’utilisation du CPU, car si le CPU était un goulot d’étranglement, l’OFA de la RTX 40 créerait une trame entrelacée pour atténuer la latence et comme il est totalement indépendant du pipeline de rendu du GPU ou des informations provenant du CPU, il comble ce “retard”, cette latence avec une FPS ou plus (selon les besoins).

Donc, dans ce cas, il n’y aurait pas de perte de performance, peut-être pas de gain de performance, mais elle serait maintenue. Donc, tout cela est merveilleux et génial, mais non, il y a un problème et il est également lié à la latence, comme cela se produit généralement dans ces cas.

Latence NVIDIA Reflex DLSS 3

Le problème vient de la génération des Future Frames, dont le rendu permet d’anticiper ce que fera le pipeline. Comme il s’agit d’une prédiction, comme le font les CPU en partie avec des registres, nous insérerions une image dans le temps alors qu’une image future a déjà été générée, et il faudrait donc la recalculer parce que l’OFA a inclus son FPS.

Comment résoudre ce problème ? Avec du muscle, comme c’est généralement le cas dans ce genre d’affaires. C’est pourquoi NVIDIA a mis au point une quatrième génération de Tensor Core, a augmenté le nombre de shaders et a inclus un moteur partagé pour les entiers et les flottants.

Nous pouvons maintenant comprendre la diapositive de la société où ils parlaient du rapport 16:1, qui est le double de ce qu’Ampere fait actuellement (8:1) et c’est pourquoi vous ne pouvez pas interpoler avec DLSS 3 une image sur la RTX 30 et la RTX 20, car cela implique actuellement une aggravation plutôt qu’une amélioration.

OFA-DLSS-3-Ada-Lovelace-vs-Ampère-vs-Turing

NVIDIA et les développeurs doivent repousser les limites de la puissance de cette génération de Tensor Cores s’ils veulent réaliser cet entrelacement de trames sans compromettre la latence. De plus, même s’ils y parviennent, ils doivent garder à l’esprit que la quantité de données générées va dans le cache L2, et dans ce cas, c’est 16 fois moins sur la RTX 30 et 17,45 fois moins sur la RTX 20 (RTX 3090 Ti et RTX 2080 Ti pour être précis par rapport à la RTX 4090).

Comment vont-ils s’y prendre pour ne pas perdre en performance tout en étant capables de la gagner ? Vraiment complexe, sans aucun doute. Tout d’abord, ils doivent éviter le goulot d’étranglement d’un cache L2 plus petit, qui, bien qu’il n’existe pas de données sur l’impact de DLSS 3 par rapport à MB, a sûrement beaucoup à dire, et une fois qu’ils y parviennent, ils doivent optimiser l’OFA pour réduire beaucoup la charge de travail. Les deux peuvent aller de pair, mais ce qui est certain, c’est qu’il ne sera ni facile ni rapide d’obtenir des résultats, si tant est qu’il y en ait.