Tesla a terminé la conception de son supercalculateur Dojo, ce qui signifie qu’il ne tardera pas à entrer en production. C’est du moins ce qu’affirme l’entreprise automobile d’Elon Musk dans son dernier rapport financier. N’oublions pas qu’ils ont choisi de développer et de fabriquer une grande partie des équipements nécessaires pour rendre leurs voitures entièrement autonomes. Le tout dans une structure verticalement intégrée qui va du matériel et des logiciels embarqués dans leurs véhicules aux systèmes de formation en passant par le développement des modèles d’apprentissage.
Tesla utilise actuellement des systèmes basés sur des GPU NVIDIA, cependant, le supercalculateur Dojo a été développé avec des puces créées en interne par l’entreprise et fait partie d’un projet qui a débuté en 2019. L’objectif ? Disposer d’un ordinateur capable d’effectuer un trillion d’opérations par seconde, soit 1 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 – soit 18 zéros.
Voici à quoi ressemble le superordinateur Tesla Dojo.
Comme il s’agit d’un superordinateur, il ne s’agit pas d’une unité compacte. En 2021, les premiers prototypes de la puce D1 qui fera partie du Tesla Dojo ont été présentés. Elle sera utilisée pour entraîner ses voitures à être totalement autonomes. En réalité, l’objectif est de distribuer les différents Tesla Dojo à travers le monde pour former les différents véhicules de la marque à des tâches telles que le transport de marchandises ou de personnes.
N’oublions pas que tous les constructeurs automobiles concentrent leurs efforts pour rendre leurs véhicules entièrement autonomes et que dans ce cas, Tesla ne peut pas être en reste. La différence avec les autres, c’est qu’ils ont décidé de choisir de construire chaque élément de leur technologie. En d’autres termes, contrairement à d’autres marques, le superordinateur utilisé pour entraîner les différents véhicules utilisera des puces conçues par la marque elle-même.
La puce D1, cœur de Tesla Dojo, offre 360 cœurs par puce.
L’unité centrale de Dojo est la puce D1, conçue pour être fabriquée sous le nœud N7 ou 7 nm de TSMC. Elle est composée de 50 milliards de transistors, ce qui n’en fait pas vraiment une petite puce, puisqu’elle a une surface de 645 millimètres carrés.
S’agissant d’une puce d’IA, la configuration de chaque puce utilisée dans le Tesla Dojo est celle d’un réseau systolique, dans lequel les différents cœurs sont placés dans une matrice. De telle sorte que les informations et les instructions à exécuter proviennent des unités voisines. À cette fin, chaque cœur dispose d’un routeur qui communique avec ses voisins.
Au total, les cœurs sont disposés dans une matrice de 18 lignes et 20 colonnes pour un total de 360 cœurs, dont 354 sont disponibles pour des applications à une vitesse d’horloge de 2,00 GHz avec un TDP de 400W pour l’ensemble de la puce.
Anatomie des différents cœurs de la puce D1.
Quant aux caractéristiques de chacun des cœurs à l’intérieur de la puce D1, elles sont les suivantes :
- Il s’agit d’une unité centrale superscalaire de 64 bits.
- Jusqu’à quatre instructions simultanées.
- Capacité multithreading avec jusqu’à quatre threads exécutés en même temps.
- N’est pas conçu pour prendre en charge un système d’exploitation moderne, car il manque de mémoire virtuelle et de mécanismes de protection de la mémoire.
- Quant à l’ISA que Tesla a utilisé pour créer la puce D1, il s’agit de RISC-V.
- Chacun des cœurs possède 2 unités logiques-arithmétiques, une pour la virgule flottante et une pour les nombres entiers, ainsi que deux unités de calcul d’adresse.
- Dans le cas des deux premières, elles sont ce que nous appelons SIMD over register, c’est-à-dire qu’elles peuvent exécuter une instruction de 64 bits, deux instructions de 32 bits ou quatre instructions de 16 bits par unité dans le même cycle d’horloge.
- Cependant, la particularité du D1 dans Tesla Dojo est qu’il prend en charge jusqu’à 16 types de données et qu’ils peuvent être combinés ensemble.
- À tout cela s’ajoute une unité de calcul tensoriel avec une configuration 8 x 8 x 4.
Architecture de la mémoire
Comme chacune des puces D1 est un processeur d’intelligence artificielle, elle ne suit pas le même schéma qu’un processeur conventionnel. Comme chacun de ses cœurs n’a pas de système de cache, il utilise la mémoire locale pour exécuter ses algorithmes, qui a une capacité de 1,25 Mo de SRAM par cœur. Cela signifie qu’il y a 440 Mo de mémoire par Tesla D1, si l’on compte tous les cœurs.
Configuration complète du Tesla Dojo
Cependant, les D1 ne font pas cavalier seul, Tesla les regroupant dans ce qu’ils appellent un Training Tile, où nous avons 25 de ces puces dans une configuration 5 x 5. Ensemble, ils atteignent 11 Go de mémoire et 9 PetaFLOPS de puissance de calcul. En termes de mémoire externe, chaque Training Tile est équipé de mémoire HBM2E ou HBM3, soit jusqu’à 160 Go de mémoire par unité.
A partir de là, nous pouvons maintenant compléter l’organisation du supercalculateur d’Elon Musk, qui est configuré comme suit :
- Six “tuiles d’entraînement” forment ce qui est un System Tray.
- 960 Go de mémoire HBM par System Tray.
- 66 Go de mémoire locale.
- Il y a 2 plateaux système par armoire.
- 108 PetaFLOPS de puissance agrégée.
- 1 920 Go de mémoire HBM par armoire.
- 132 Go de mémoire locale.
- 10 Cabinets par Tesla Dojo
- 200 Go de RAM pour un supercalculateur Tesla Dojo.
- 1 320 Go de mémoire locale.
- 1 080 PetaFLOPS ou 1,08 ExaFLOPS de puissance totale.
Il ne fait aucun doute que le Tesla Dojo est l’un des supercalculateurs les plus puissants au monde pour l’IA. Cependant, la dernière question qui se pose est de savoir combien l’entreprise d’Elon Musk a l’intention d’en déployer dans le monde entier. Dans les années à venir, il sera intéressant de voir lequel des constructeurs finit par avoir le meilleur système de conduite entièrement autonome. Quoi qu’il en soit, et pour conclure, on peut dire que dans ce cas, ils ne veulent pas devenir dépendants du matériel NVIDIA ou des bibliothèques CUDA, car les algorithmes de la puce D1 seront programmés à l’aide de bibliothèques développées en interne.