in

AMD annonce avoir commandé 1,2 million de GPU pour 1 cluster d'IA

AMD annonce avoir commandé 1,2 million de GPU pour 1 cluster d'IA

La présentation par AMD de ses processeurs EPYC Turin a fait la une des journaux et la confrontation avec Intel est un serveur avec Granite Rapids et Sierra Forest. Mais aussi, la nouvelle feuille de route GPU a révélé qu'AMD a quelques problèmes face à la poussée de NVIDIA, même s'il se bat pour rattraper son retard, et c'est très intéressant si l'on le croise avec la dernière interview que Forrest Norrod a donnée aux collègues de The Next Platform, puisqu'il y a eu une proposition indécente : fabriquer 1,2 million de GPU pour un cluster d'IA, qui était le fou qui leur a demandé autant d'unités ?

Alors que l’industrie de l’IA part telle une torpille droit vers sa cible, sans hésitation et à une vitesse incroyable, le monde a de plus en plus besoin de matériel pour former des LLM de plus en plus complexes qui nécessitent une puissance de calcul inégalée. La folie atteint un tel point que même AMD ne peut pas s'engager à fournir autant d'accélérateurs MI300 que certains le souhaitent.

AMD confirme que le secteur de l'IA est hors de contrôle et que les entreprises n'arrêtent pas de commander des GPU

Bien que l’interview parle de GPU, elle fait évidemment également référence aux accélérateurs, car c’est ce que conçoit AMD et TSMC fabrique pour eux. Les collègues de TNP avec Timothy Prickett Morgan à la barre comme intervieweur ont posé plus de 10 questions à Forrest Norrod, directeur général de l'activité data center d'AMD, et les réponses sont vraiment intéressantes à connaître, mais nous en garderons quelques-unes surprenantes avec l'accent mis sur l'IA. :

TPM : Pensez-vous que le monde peut fabriquer suffisamment de GPU pour le deuxième scénario (LLM plus complexes) où tout le monde veut des modèles énormes avec d'énormes quantités de paramètres ?

Forrest Norrod : Je pense que oui. Parce que, franchement, même pour les modèles plus grands dont vous parlez, il m'est difficile de voir des modèles d'inférence plus grands que, disons, quelques racks. C'est dans le pire des cas. Et je pense que parce qu’il existe une telle incitation, la grande majorité des modèles plus importants s’intégreront dans un nœud d’inférence.

Mais certains des groupes de formation envisagés sont vraiment étonnants…

Cela fait référence au besoin mondial de davantage de matériel d’IA, mais à ce stade, de combien de GPU parlons-nous réellement ? Eh bien, Norrod laisse Morgan perplexe et montre le non-sens dans lequel l’IA et son matériel sont actuellement plongés.

A lire également  SSD externe avec écran tactile et cryptage matériel

Environ 1,2 million de GPU pour un seul cluster d'IA

Forrest-Norrod-1,2-million-GPU-pour-un-cluster-IAForrest-Norrod-1,2-million-GPU-pour-un-cluster-IA

Replaçons le chiffre dans son contexte pour comprendre les déclarations et les raisons de la réponse de Norrod. Actuellement, les clusters d'IA les plus importants de la planète comptent entre 50 000 et 60 000 GPU, ce qui est insensé en termes de puissance, de chaleur, de taille et de consommation. Eh bien, avec ces chiffres à l’esprit, voyons ce que Norrod a dit dans l’interview :

TPM : Quel est le plus grand groupe de formation en IA où quelqu'un est devenu sérieux ? Il n'est pas nécessaire de donner des noms. Est-ce que quelqu'un est venu vous voir et vous a dit avec vos MIx00 : j'ai besoin de 1,2 million de GPU ou autre ?

Forrest Norrod : Êtes-vous dans cette fourchette ? Ouais.

TPM : Vous ne pouvez pas simplement dire « c'est dans cette fourchette ». Quel est le plus grand nombre réel ?

Forrest Norrod : Je suis très sérieux, c'est dans cette fourchette.

TPM : Pour un cluster.

Forrest Norrod : Oui, je parle d'un seul cluster.

TPM : Ça laisse un peu perplexe, vous savez ?

Forrest Norrod : Je comprends. L’ampleur de ce qui est envisagé est ahurissante. Maintenant, est-ce que tout cela arrivera ? Je ne sais pas. Mais il existe des rapports publics faisant état de personnes très sobres qui envisagent de dépenser des dizaines de milliards de dollars, voire une centaine de milliards de dollars, dans des pôles de formation en IA.

200 000 fois la capacité de calcul, comment quelque chose comme ça va-t-il arriver bientôt ?

Supercluster de recherche en IA de Nvidia (RSC)SuperCluster de recherche Nvidia AI (RSC)

Un simple calcul nous dit qu'il existe quelqu'un qui est prêt à dépenser des centaines de milliards pour obtenir 200 000 fois la capacité de calcul des plus grands clusters de la planète. Logiquement, la proposition et la demande de cette entreprise ou personne ont été refusées car il n'y a personne au monde, aucun fabricant de puces, qui a la capacité de fournir ne serait-ce que 100 fois le nombre de GPU dont cette entreprise a besoin, et encore moins de le multiplier par 200. mille le nombre de puces dans des entreprises telles que TSMC, Intel et Samsung.

A lire également  jusqu'à 8 cœurs pour le CPU et 768 pour le GPU

Même à eux trois, ils ne pourraient pas quadrupler leurs expéditions à pleine production actuelle. C'est tout simplement une proposition impossible à réaliser à l'heure actuelle, si irréaliste qu'il ne sera peut-être jamais possible de le faire de la bonne manière et à temps. Cela montre à quel point certaines entreprises ou investisseurs prennent au sérieux l’ensemble du secteur de l’IA et à quel point leurs propositions, basées sur des plans d’action commerciaux, sont folles.