in

Le superordinateur le plus rapide tombe en panne tous les jours : la faute aux GPU AMD

Le superordinateur le plus rapide tombe en panne tous les jours : la faute aux GPU AMD

La plupart des utilisateurs, lorsque vous leur parlez d’une RTX 4090 et d’un i9-13900K avec 64 Go de RAM, vous considèrent déjà comme le chef de file de la Master Race et évaluent ces PC comme des ordinateurs dignes de la NASA, en raison de leurs grandes performances. Cependant, ils sont loin d’être aussi puissants que les superordinateurs. Parmi ceux-ci, le superordinateur le plus puissant du monde est le Frontier, et s’il est d’une rapidité inégalée, il est très instable – il ne peut pas fonctionner une journée sans problème, ce qui est imputé en partie aux GPU AMD Instinct.

Dans le monde des superordinateurs, il en est un qui est inégalé en termes de puissance brute, et il possède beaucoup de matériel AMD. Il s’agit du superordinateur Frontier du Oak Ridge National Laboratory, qui, avec une performance de 1 685 ExaFLOPs sur FP64, est actuellement considéré comme le meilleur 1. Pour atteindre ce chiffre, il dispose de 9 472 processeurs AMD EPYC 7453 de 64 cœurs chacun, soit un total de 606 208 cœurs. Mais ce n’est pas tout, il possède également pas moins de 37 888 GPU Radeon Instinct MI250X.

Frontier a des bogues et l’AMD Instinct en serait la cause

En plus des composants AMD susmentionnés, il dispose d’interconnexions HPE Slingshot d’une puissance de 21 MW. Ceux-ci permettent de créer un réseau de haute performance dédié au supercalculateur exascale, ce dont le Frontier est capable. C’est du moins ce que nous pensions, car il a maintenant été annoncé qu’il continuait à avoir des bugs et des erreurs si nous avions besoin d’une telle puissance. Plus précisément, des problèmes matériels empêchent cet ordinateur monstrueux de fonctionner correctement lorsque des charges de travail d’environ 1 ExaFLOP FP64 sont demandées.

Selon Justin Whitt, directeur de l’Oak Ridge Leadership Computing Facility (OLFC), ils travaillent actuellement à déterminer quels sont les problèmes matériels et pourquoi ils se produisent. Il ajoute que les pannes subies par le superordinateur Frontier alimenté par AMD sont si fréquentes qu’elles se produisent en quelques heures, et non en quelques jours. Quant aux composants à blâmer, ils désignent les GPU Instinct MI250X d’AMD comme l’une des principales causes.

Un autre coupable des pannes de superordinateurs tombe dans l’escarcelle de HPE

Bien qu’il soit considéré comme l’une des causes de ces problèmes matériels, Justin affirme que ces GPU ne sont pas à blâmer pour tous les problèmes. En fait, il défend AMD en affirmant qu’ils ne devraient pas s’inquiéter de leurs produits et qu’il vaut mieux se concentrer sur cette question en examinant tous les autres composants. En fait, il semblerait qu’un autre élément soit à l’origine de l’incapacité de ce superordinateur à fonctionner pendant une journée entière.

Cette fois, nous parlons de l’interconnexion HPE Slingshot pour donner vie au réseau HPC de ce superordinateur. Il utilise l’architecture Cray EX de HPE ainsi que des interconnexions Slingshot, des processeurs AMD EPYC et des GPU AMD Instinct. Cependant, comme pour l’accusation portée contre les GPU AMD Instinct MI250X, il n’y a, là encore, aucune preuve pour le prouver. Pour ne rien arranger, si l’on compare ces composants, on trouve des similitudes avec d’autres superordinateurs, comme le Lumi de Finlande, qui fonctionne sans aucun problème. Il a une puissance de 550 PetaFLOPs et est considéré comme le troisième superordinateur le plus puissant du monde.

Tout cela, en utilisant un système basé sur Cray EX, AMD EPYC Milan et AMD Instinct. Peut-être est-ce dû à l’énorme différence de performances entre les deux superordinateurs, ou au nombre de composants dont le superordinateur Frontier avait besoin pour fonctionner. La seule chose dont nous sommes sûrs, c’est que ce type de problème retardera son bon fonctionnement jusqu’en 2023.

The post The fastest supercomputer faults every day : AMD GPUs to blame appeared first on El Chapuzas Informático.