AMD publie depuis plusieurs mois des données sur son accélérateur d'IA Instinct MI300X, mais il est intéressant de noter qu'il ne peut pas être comparé à ce que NVIDIA avait sur le marché. La situation était similaire avec Intel, il semblait que tout le monde essayait de rattraper son retard pour éviter d'être confronté aux données sur un marché qui exige des puces pour la formation et l'inférence à un rythme plus rapide que celles produites. Eh bien, étant donné que les Reds auront bientôt leur successeur prêt, le MI325X, ils ont révélé des données qui peuvent enfin être comparées à celles de NVIDIA. Qui est le plus rapide ? Le MI300X est-il capable d'atteindre les mêmes performances que les H200, GH200 et B200 de NVIDIA ?
Il y a quelques “mais” qui doivent être mentionnés, car même si les principales options pour l'IA ont été mesurées en fonction du meilleur matériel qu'une entreprise peut acheter, nous devons garder à l'esprit que la comparaison n'est pas totalement équitable. Voyons pourquoi.
AMD montre les données de l'Instinct MI300X à comparer avec celles de NVIDIA
Le scénario n'en est qu'un, à savoir Llama2 70B hors ligne, en plus, avec les derniers logiciels des deux sociétés. La particularité et le “mais” que l'on peut trouver dans la comparaison que les collègues de HardwareLUXX ont très efficacement relativisée en prenant les données d'AMD elle-même et en les opposant à NVIDIA, c'est que le MI300X a un TBP de 750W, alors que le H200, les GH200 et B200 de NVIDIA sont configurés à 1000W, ce qui représente une très grande différence de consommation.
Logiquement, cela a un impact sur les performances, qui sera plus ou moins grand, pour le moment nous ne le savons pas, mais il est également intéressant de comparer les données même dans ces conditions, car elles n'ont jamais coïncidé auparavant dans le même scénario spécifique. . Pour terminer cette section, il faut également tenir compte du fait que les options NVIDIA sont configurées comme CTS, c'est-à-dire Custom Thermal Solution, ou ce qui est une solution de dissipation thermique personnalisée pour le H200, ce qui, en théorie, pourrait leur donner un autre léger avantage.
NVIDIA H200, B200 et GH200, performances par rapport au MI300X, la comparaison que nous voulions tous voir
Ce sont des données brèves avec les handicaps que nous avons évoqués plus haut, mais tout aussi intéressantes. Le premier graphique montre le H200 avec 141 Go de HBM3e et 1000W par rapport au MI300X, mais 8 d'entre eux sont également présentés en tandem, ce qui révèle l'évolutivité des serveurs.
Unité par unité, le H200 est respectivement 66,74 % et 46,53 % plus rapide que le MI300X hors ligne et serveur. En tenant compte du fait que la différence de consommation est de 33 %, NVIDIA serait encore relativement plus rapide que son rival si AMD pouvait évoluer de manière plus ou moins parallèle en termes de performances par watt consommé, ce qui n'est normalement pas le cas.
Les différences se réduisent lorsque l’on place huit de chacun d’eux en même temps. De ces 66,74%, il passe à 55,93% et de 46,53% à 48,26%. L'amélioration dans l'un ne compense pas la perte dans l'autre scénario, on pourrait donc dire qu'AMD évolue mieux que NVIDIA en termes de performances des serveurs.
Que se passe-t-il si les GH200 et B200 sont inclus dans l'équation avec 144 Go / 180 Go et 1 000 W ? Eh bien, la différence de NVIDIA est multipliée plusieurs fois, pas tant par le GH200, qui est plus lent que le H200, mais par le B200, qui est monstrueux, car il est vraiment fluide. Et les données ne mentent pas : +367,79% et +426,76% par rapport au MI300X.
Bref, ce B200 est en moyenne presque 4 fois plus rapide, diablement rapide, et cela inclut 12 Go de VRAM en moins. Pour cette raison, AMD doit continuer à travailler, car Blackwell, en particulier le B200, a placé la barre plusieurs fois plus haut, à tel point que même Intel et les rouges ne peuvent pas arrêter les verts, qui deviennent de l'or, et avec raison.