in

l'accélérateur d'IA qui triple sa puissance

l'accélérateur d'IA qui triple sa puissance

Meta est en plein essor en matière d'IA, tant d'un point de vue logiciel que matériel. Le meilleur exemple des promesses de Zuckerberg d'il y a quelques mois est ici aujourd'hui, et il s'agit de la deuxième génération de MTIA, qui promet des performances et une évolutivité considérablement améliorées par rapport à sa première version. Ce MTIA V2 triple la puissance, double la quantité de RAM et quadruple presque la consommation.

L’annonce a été faite, comme on pouvait s’y attendre, avec style. Meta veut que son matériel soit vu à la fois par ses partenaires et par ses concurrents, et envoie un message important au monde du matériel d'IA : nous avons l'argent, les personnes, le talent et la détermination pour créer notre propre matériel optimisé, nous le ferons. ne dépend pas de NVIDIA. Peuvent-ils vraiment le faire ? Eh bien, à leur manière, et pour répondre brièvement, oui, ils peuvent y parvenir.

MTIA V2, le SoC pour IA de Meta qui fait un saut qualitatif au prix d'une plus grande consommation

Quelqu'un dira qu'une plus grande performance ne compense pas au prix d'une plus grande consommation, et l'exemple est Intel lui-même et son Core 14, qui sont encore frais. Mais Meta ne joue pas dans ces termes, en fait, c'est totalement loin d'eux, et cela leur donne une marge intéressante là où la seule chose qu'ils veulent est de maintenir l'équilibre performance/coûts/consommation. Et ils l’ont encore fait.

Bien que l'entreprise déclare publiquement que l'équilibre qu'elle recherche n'est pas le rapport que nous avons mentionné, mais plutôt le rapport calcul – bande passante – capacité de mémoire, la vérité est que même pour l'IA, il faut quelque chose de durable en termes de consommation et de coûts, même si c'est le cas. une côte de performance. Pour cette raison, et poursuivant la dialectique de Meta, ils déclarent vouloir fournir plus de capacité SRAM par rapport à un GPU NVIDIA pour obtenir une plus grande utilisation interne des charges du matériel, même avec de petites tailles de lots.

A lire également  La Chine change le matériel occidental en matière de communications et de banque

Cela a du sens lorsque vous avez de très petites images avec lesquelles travailler, comme sur Facebook ou Instagram, mais des millions d'entre elles à traiter par seconde.

Le matériel, un pas en avant qui n'impressionne cependant pas et n'en a pas besoin

Meta-MTIA-V2-socket-y-SoC

Comme nous l'avons vu dans MTIA V1, Meta base son architecture sur ce qu'ils ont appelé Processing Elements ou PE. Leur disposition physique sur la puce est basée sur une grille 8 x 8, ce qui n'est pas habituel. Cela est dû à la nécessité d'alimenter le réseau PE avec quatre XBAR, de sorte que la conception devait être symétrique sur ses quatre côtés, où il fallait augmenter le nombre de PE, ce qui aboutissait à ladite grille.

Ces XBAR sont nécessaires pour augmenter la taille du stockage disponible pour chaque PE, où ils agissent comme un système d'interconnexion E/S entre la SRAM (dupliquée) et la PHY de la RAM LPDDR5X. Cela offre deux autres avantages clés : une bande passante augmentée de 3,5 fois et le double de la quantité de RAM disponible pour travailler (256 Mo sur puce et jusqu'à 128 Go hors puce).

MTIA-V2-encapsuléIHS-Méta-MTIA-V2

MTIA V2 est fabriqué en TSMC N5, c'est donc un nœud relativement moderne, déjà mature, avec un coût abordable et un volume suffisant pour les besoins de Meta. Sa fréquence est de 1,35 GHz, soit 550 MHz de plus que la version originale, intégrant également le 2,35B de Gates dans une très petite taille de 25,6 mm x 16,4 mm, ce qui donne une superficie de 421 mm2.

La tension augmente un peu par rapport à la version V1, passant de 0,67 V à 0,85 V, donc dans le chipset tout ce qui est mentionné signifie que le TDP évolue également dans ce MTIA V2 jusqu'à 90 W.

A lire également  Alimentations ATX 3.0 avec connecteur PCIe 5.0

Un bond de performance incroyable dans certains domaines clés

MTIA-V2-diagramme-blocsEncapsulation et distribution

Le matériel n'impressionne pas du tout, mais il ne prétend pas l'être, ce n'est pas son objectif, mais une meilleure efficacité avec des performances dans des tâches spécifiques qui sont superlatives. Et là c'est surprenant :

HAUTS GEMMES

  • 708 TFLOPS/s (INT8) (rapidité)
  • 354 TFLOPS/s (INT8)
  • 354 TFLOPS/s (FP16/BF16) (rapidité)
  • 177 TFLOPS/s (FP16/BF16)

HAUTS SIMD

Noyau vectoriel :

  • 11.06 TFLOPS/s (INT8),
  • 5,53 TFLOPS/s (FP16/BF16),
  • 2,76 TFLOPS/s (FP32)

SIMD :

  • 5,53 TFLOPS/s (INT8/FP16/BF16),
  • 2,76 TFLOPS/s (FP32)

Comme nous le voyons, il existe des données intéressantes. Par exemple, dans GEMM TOPS INT8, les performances ont triplé et dans FP16, elles auraient presque quadruplé. Dans SIMD Vector avec INT8, il est également presque multiplié par quatre, ce qui est vraiment incroyable pour un saut générationnel, plus typique de NVIDIA que de Meta.

Enfin, Meta assure avoir développé MTIA V2 dans le but de prendre en charge jusqu'à 72 accélérateurs par rack. Chacun sera composé de trois châssis, et chaque châssis aura 12 plaques avec deux accélérateurs chacune.

Logiciel-Meta-Triton-CompilateurLogiciel-Meta-Triton-Compilateur

La section logicielle est un autre gros avantage, puisqu'ils ont optimisé leur pile logicielle pour créer un backend pour le compilateur Triton-MTIA. Cela générera un code hautes performances pour votre SoC, ce qui améliorera la production des développeurs en écrivant du code GPU sans en avoir aucun, ne dépendant donc absolument pas de NVIDIA pour quoi que ce soit.

Tout sera fait avec son compilateur et son matériel, montrant que le pari de 35 milliards sur l'IA qu'ils vont faire a beaucoup de sens, est évolutif et permettra un bond en avant en termes de performances, d'optimisation, de matériel et de logiciel proche de ce que NVIDIA l'a montré avec Blackwell, sauf pour la différence de puissance entre les puces, évidemment.