in

Architecture NVIDIA Ada Lovelace : caractéristiques et nouveaux développements

Architecture NVIDIA Ada Lovelace : caractéristiques et nouveaux développements

L’architecture NVIDIA Ada Lovelace ne peut pas être considérée comme révolutionnaire par rapport aux architectures précédentes. Mais elle a une fois de plus prouvé qu’elle représentait un bond significatif en termes de performances par rapport à la génération précédente. Elle inclut également un certain nombre de nouvelles fonctionnalités et de nouveaux composants que nous allons détailler ci-dessous, notamment en termes de génération de graphiques 3D en temps réel, ce qui est essentiel pour les performances des jeux sur PC, mais surtout dans le cadre d’un changement de génération qui semble s’éterniser.

Lovelace est une évolution matérielle par rapport à l’architecture précédente, Ampere, améliorant certains points et conservant des éléments de la RTX 30. Cependant, on dit que ce sont les petites choses qui font la différence, et on peut dire que NVIDIA a non seulement profité du passage du 8 nm de Samsung au 4 nm de TSMC (4N, un dérivé direct du 5 nm) pour ajouter plus de cœurs et de cache, mais aussi pour apporter de petits changements qui seront importants pour l’avenir.

Organisation générale de l’architecture NVIDIA Ada Lovelace.

Dans le cas présent, NVIDIA a conservé la même organisation générale que les générations précédentes de GPU NVIDIA, de sorte que, d’un point de vue visuel, il n’y a pas de changement significatif. La seule différence est que le passage du 8nm de Samsung au 4nm de TSMC a permis à NVIDIA de mettre 16 fois plus de cache L2 sur les puces de l’architecture NVIDIA Lovelace et d’augmenter le nombre maximum de multiprocesseurs Stream sur la puce de configuration la plus élevée de 84 à 144, bien que pour le moment ils n’aient pas atteint ce nombre et que la RTX 4090 reste à 128, laissant de la place pour une éventuelle RTX 4090 Ti.

Comme toujours, nous avons dit que l’organisation générale des nouvelles puces est la même, mais avec une augmentation considérable du nombre de cœurs.

  • Jusqu’à 12 GPC (Graphics Processor Cluster).
    • 16 ROPS par GPC.
    • 1 unité de tramage par GPC, avec la capacité de tramage d’un triangle par cycle d’horloge.
    • Chaque GPC est connecté à une partition de cache L2.
    • Le cache L2 est unifié et sert de pont entre la mémoire de la carte graphique et les différentes unités du GPC, mais il n’est pas situé dans le GPC.
    • Chaque GPC peut avoir jusqu’à 6 TPC (Texture Processor Cluster).
      • Le moteur Polymorph ou l’unité de tessellation matérielle.
      • Cache d’instructions L1.
      • 2 unités SM, flux multiprocesseur.

Après avoir trié les différents éléments, nous allons nous concentrer sur les derniers, les multiprocesseurs Stream, qui sont les véritables cœurs du GPU et pour lesquels l’architecture NVIDIA Lovelace a subi le plus de changements par rapport à la génération précédente.

SM sur NVIDIA Ada Lovelace

NVIDIA-AD102-SM-Ada-Lovelace

Les multiprocesseurs de flux sont les pierres angulaires de toute architecture graphique NVIDIA aujourd’hui, et comprennent généralement, et depuis plusieurs générations, les éléments suivants :

  • 4 sous-cœurs, qui comprennent
    • Une unité SIMD FP32 à 16 unités
    • Une unité SIMD FP32 à 16 unités et une unité INT32, l’une commutée par rapport à l’autre.
    • 1 ou 2 “cœurs” de tenseur ou tableaux systoliques.
    • Les registres et le planificateur pour tous les éléments ci-dessus, ainsi que le cache L0.
  • Mémoire locale+cache de données L1.
  • RT Core, unité de calcul des intersections dans le Ray Tracing.
  • 4 unités de fonctions spéciales ou SFU, qui sont des ALU responsables d’opérations complexes telles que les rapports trigonométriques, les logarithmes, les puissances, les racines carrées et les divisions.
A lire également  Cooler Master et PNY lanceront un RTX 4090 TOP avec les fans de Mobius

Si l’on ne regarde que les diagrammes, il semblerait que les deux architectures soient identiques, mais NVIDIA a décidé à Lovelace d’améliorer deux éléments qui définissent son RTX, d’une part, les Tensor Cores et d’autre part, les RT Cores, qui sont ceux qui ont subi les changements les plus importants.

Quatrième génération de Tensor Cores

Cœurs de tenseur Architecture Lovelace de NVIDIA

Les unités baptisées Tensor Cores sont les unités chargées d’accélérer la majorité des algorithmes de Deep Learning, elles sont aussi appelées processeurs matriciels du fait qu’elles ont la capacité d’exécuter en très peu de cycles d’horloge des opérations de ce type, très utilisées dans les algorithmes liés à ce que l’on appelle habituellement, en simplifiant, l’intelligence artificielle. Contrairement aux RT Cores, ils ne constituent pas une unité autonome, mais un type d’ALU comme les unités SIMD ; en fait, ils partagent le même ordonnanceur et les mêmes registres.

Cependant, ce qui nous intéresse, ce sont les nouvelles fonctionnalités, parmi lesquelles le support des opérations mathématiques utilisant le format FP8, qui s’ajoute à ceux précédemment supportés : F16, BF16, TF32, INT8 et INT4. Certaines d’entre elles utilisent le SIMD over register, ce qui permet de doubler, voire de quadrupler le taux d’opérations par cycle d’horloge.

Nouveaux cœurs RT

Architecture des RT Cores NVIDIA Ada Lovelace

Les RT Cores sont situés à l’intérieur de chaque SM, à raison d’un par multiprocesseur de flux. Leur complexité n’a cessé de croître et, contrairement aux Tensor Cores, ils constituent une unité autonome. Bien qu’il puisse communiquer avec le cache interne et la mémoire locale, il n’a pas besoin des registres pour fonctionner et peut effectuer son travail sans entrave.

La raison principale de l’existence de ce type d’unité est que dans le Ray Tracing, les calculs d’intersection sont effectués en continu et que sans les RT Cores, ils finiraient par saturer les unités SIMD à des niveaux énormes, ce qui réduirait à néant les performances du GPU dans les scènes de Ray Tracing.

En ce qui concerne les nouveautés des nouveaux RT Cores de l’architecture NVIDIA Ada Lovelace, leurs performances ont été doublées, ainsi que le ratio d’intersections qu’ils peuvent réaliser par SM et par cycle d’horloge par rapport à leur prédécesseur. Cependant, ce ne sont pas les seuls changements, car NVIDIA a ajouté deux éléments supplémentaires, tous deux très importants pour l’avenir.

Moteur de micromaps d’opacité

Moteur de micromaps d'opacité

La première des deux unités qui ont été incluses est une unité qui vous permet d’accélérer le traçage des rayons sur des surfaces qui ont une transparence totale ou partielle. Les exemples sont une fenêtre transparente ou les feuilles d’un arbre. Il s’agit d’une solution qui remplace l’accès coûteux à la mémoire de l’Alpha Blending et le fait de devoir évaluer chaque objet par le biais des shaders.

Grâce à cet ajout à l’architecture NVIDIA Ada Lovelace, il est possible de calculer le Ray Tracing sur de tels objets sans avoir recours à un programme de shaders ou à un programme plus petit. Cela permet de libérer les unités SIMD de chaque SM pour d’autres tâches et d’accélérer le taux de rafraîchissement de ces scènes.

Moteur Micro-Mesh déplacé

Géométrie Unreal Engine 5

Cette unité est extrêmement intéressante pour l’avenir et beaucoup l’ignorent. Ce qui est curieux, c’est que NVIDIA a décidé de l’inclure dans le RT Core, mais en réalité, elle n’a pas de relation directe avec le Ray Tracing. Elle nous permet d’utiliser une géométrie de haute précision, c’est-à-dire des micro-polygones.

A lire également  Baldur's Gate 3 n'aura pas de DLC

C’est essentiel pour les moteurs graphiques comme Unreal Engine 5, qui utilisent ce type de primitives de haute précision, mais nécessitent des unités SIMD pour les exécuter, car les unités matricielles ne sont pas très efficaces. Le nom Displaced vient du fait que, comme dans le cas du Displaced Mapping, il génère la géométrie à partir d’une petite carte indiquant l’expansion de l’objet de base, tout en conservant sa forme originale.

Plus de cache L2 que jamais dans l’architecture NVIDIA Ada Lovelace

NVIDIA-AD102-RTX-40-Ada-Lovelace

Le dernier point à noter est le cache L2, dont la taille a été multipliée par seize par rapport à la RTX 30. On ne peut s’empêcher de penser au changement qu’AMD a déjà apporté à son RDNA 2 en incluant le cache Infinity, mais ici la différence est que NVIDIA n’a pas ajouté un nouveau niveau et a gardé la structure intacte par rapport à la RTX 30, à l’exception de la taille.

Le principal goulot d’étranglement de la famille RTX 40 est la mémoire utilisée. Une RTX 3090 Ti avec moins de SM actifs, 84, contre une RTX 4090, 128, a moins besoin d’accès à la mémoire et de bande passante. Le problème ? Les deux utilisent exactement la même mémoire. Nous pouvons donc en déduire que le GPU Top avec l’architecture Ada Lovelace est limité dans ses accès à la mémoire. La solution ? Augmenter la taille du cache L2 autant que possible sans atteindre les limites de l’économie de la puce, qui est dictée par sa taille.

L’avantage en termes de performances ? Étant donné que tous les lecteurs écrivent et lisent dans la mémoire cache L2, l’augmentation de la taille de la mémoire cache L2 permet de conserver les données plus longtemps dans la mémoire cache, car il y a de la place pour de nouvelles données. Cela réduit les accès à la mémoire vidéo, qui sont coûteux et consomment de l’énergie.

Ada Lovelace : une architecture optimisée pour la vitesse.

NVIDIA-RTX-4090

Cependant, il ne faut pas oublier que faire travailler les ingénieurs sur un nouveau nœud de fabrication implique de repenser beaucoup de choses en termes de conception interne. Si l’utilisation du 4nm de TSMC permet des vitesses d’horloge plus élevées, cela est également possible grâce à un plus grand nombre d’étages de segmentation.

Et c’est précisément l’un des points les plus importants de l’architecture Ada Lovelace qui est le plus souvent ignoré. Surtout lorsqu’il s’agit d’analyser son organisation, car l’augmentation du nombre de transistors d’une génération à l’autre ne correspond pas à l’augmentation du nombre de cœurs ni à une augmentation linéaire des performances.

De plus, nous trouvons un curieux paradoxe, les cartes graphiques avec l’architecture NVIDIA Ada Lovelace plus bas de gamme que la RTX 4090 battent leurs homologues de la génération précédente, non pas avec un plus grand nombre de cœurs et d’unités de calcul. Mais avec des vitesses d’horloge plus élevées. Ce qui, en théorie, devrait permettre de lancer des puces beaucoup plus petites à un coût inférieur. Tout cela serait vrai si le nombre de transistors nécessaires à tout processeur était maintenu afin d’atteindre des vitesses d’horloge plus élevées.

C’est tout ce que nous avons à dire sur la dernière architecture GPU pour les ordinateurs portables. gaming Nous espérons que vous avez appris quelque chose de nouveau et que vous avez apprécié notre article.