Lors de la formation de modèles d'IA, les graphiques NVIDIA sont devenus de loin le composant matériel le plus recherché. La demande pour ces graphiques était si élevée qu’en peu de temps, nous avons dû attendre des semaines pour recevoir les commandes. Cela a généré d'énormes bénéfices pour NVIDIA, qui est récemment devenue l'entreprise la plus valorisée au monde. Même si l'entreprise domine complètement le marché avec ses graphiques, les GPU NVIDIA H100 ont maintenant été découverts avec des mémoires HBM3 défectueuses qui ont provoqué de nombreux échecs dans l'entraînement de Llama 3.
Les modèles d’intelligence artificielle comme GPT-4 ont nécessité des mois de formation avec de nombreux GPU pour arriver à ce qu’ils sont. Nous parlons d’une IA avec 175 milliards de paramètres, la plus grande que nous ayons vue au moment de son lancement. Après cela, OpenAI a créé d'autres modèles comme les récents GPT-4o et 4o mini, une version optimisée et plus petite.
Meta a entraîné le modèle d'IA Llama 3 405B et a connu de nombreux échecs avec les GPU H100
Alors qu'OpenAI a retenu l'attention de tous, les autres marques ne voulaient pas rester les bras croisés et regarder leur rival les dépasser. Certains comme Google ont pris des mesures en créant leur groupe de modèles d'IA appelé Gemini et d'autres comme Anthropic ont Claude. Pendant ce temps, Meta n’abandonne pas son objectif de créer une IA ouverte et librement utilisable avec Llama. Llama 3 est la dernière version que nous avons vue, en particulier le modèle 405B, qui est considéré comme le plus complet à ce jour.
Afin d'entraîner le modèle Llama 3 405B à l'aide d'un cluster de 16 384 GPU NVIDIA H100 de 80 Go. La formation a duré 54 jours, mais a malheureusement fini par subir 419 erreurs inattendues causées par le matériel, soit une panne toutes les trois heures. La moitié des cas étaient dus aux GPU H100 et à leur mémoire HBM3 intégrée.
Malgré les erreurs, la formation a fonctionné 90% du temps
Le fait que ces cartes graphiques subissent des pannes n'est pas courant, mais il faut garder à l'esprit qu'il s'agit ici d'un supercalculateur avec plus de 15 000 GPU. Le calcul asynchrone de tous ces graphiques les rend plus sujets aux pannes, ce qui peut empêcher la progression de la formation ou même nécessiter un redémarrage du système. Dans le cas de l'entraînement Llama 3, l'équipe Meta affirme avoir pu maintenir l'entraînement 90 % du temps.
Tout comme il y a eu 419 pannes inattendues, il y a eu 47 interruptions planifiées, ce qui a donné lieu à 466 pannes au total. Les pannes planifiées étaient dues à une maintenance automatisée et le reste était dû à des erreurs matérielles. Parmi tous ces problèmes, 30,1 % étaient dus à des pannes de GPU avec des erreurs NVLink tandis que 17,2 % étaient dus à la mémoire HBM3. En revanche, il n'y a eu que deux erreurs de la part du CPU au cours des 54 jours de formation. Rappelons qu'Elon Musk a annoncé avoir réussi à mettre en place un cluster de 100 000 GPU H100, on peut donc ici se faire une idée du nombre de pannes qu'ils peuvent avoir.