On sait aujourd’hui qu’Intel a décidé de publier sa bibliothèque d’accélération Intel NPU Acceleration en open source. Cette bibliothèque est évidemment compatible avec le système d’exploitation Windows, mais également avec Linux. En bref, grâce à cette bibliothèque, vous pouvez utiliser le NPU Intel AI Boost pour exécuter un modèle de langage léger (LLM) comme TinyLlama. TinyLlama est un modèle compact avec seulement 1,1 milliard de paramètres. Cette compacité lui permet de s’adapter à une multitude d’applications qui nécessitent un encombrement informatique et mémoire restreint.
Bien évidemment, cette librairie est destinée, pour l’instant, à être associée aux nouveaux processeurs Intel Core Ultra. Les premiers processeurs de l’entreprise intégrant un NPU pour gérer les charges de travail liées à l’IA. Évidemment, ce mouvement se concentre sur les développeurs. Désormais, les utilisateurs ordinaires, disposant de ce matériel et d’une certaine expérience en programmation, pourraient profiter de leur processeur Intel pour leur travail d’IA.
La bibliothèque d’accélération Intel NPU désormais disponible sur GitHub
C’est Tony Mongkolsmai, architecte logiciel et évangéliste technique, qui a fait l’annonce en votre compte X officiel. C’est le même qui a proposé une démonstration logicielle exécutant le LLM TinyLlama sur un ordinateur portable MSI Prestige 16 AI Evo équipé d’un processeur Intel Meteor Lake.
La bibliothèque d’accélération open source NPU est principalement destinée aux développeurs, mais les utilisateurs réguliers, ayant une certaine expérience en programmation, pourraient l’utiliser pour exécuter leur chatbot IA sur Meteor Lake.
Pour les développeurs qui l’ont demandé, consultez la nouvelle bibliothèque open source Intel NPU Acceleration. Je viens de le tester sur ma machine MSI Prestige 16 AI Evo (Windows cette fois, mais la librairie supporte aussi Linux) et en suivant la documentation GitHub j’ai pu faire tourner TinyLlama et Gemma-2b-it sans problème.
Il s’agit pour les développeurs de travailler avec des modèles pour le NPU, pas vraiment un chemin de production… c’est pour cela que vous souhaitez utiliser DirectML/OpenVINO.
Intel s’exprimera officiellement bientôt, mais c’est trop beau pour ne pas le partager.
Pour les développeurs qui l’ont demandé, consultez la nouvelle bibliothèque open source Intel NPU Acceleration. Je viens de l’essayer sur ma machine MSI Prestige 16 AI Evo (windows cette fois, mais la bibliothèque prend également en charge Linux) et en suivant la documentation GitHub, j’ai pu exécuter TinyLlama… pic.twitter.com/UPMujuKGGT
– Tony Mongkolsmai (@tonymongkolsmai) 1er mars 2024
Étant donné que la bibliothèque NPU Acceleration est explicitement conçue pour les NPU Intel, elle ne peut pour le moment fonctionner que sur les processeurs Intel Meteor Lake (Core Ultra). Il est logique de s’attendre à ce que des processeurs de nouvelle génération comme Arrow Lake et Lunar Lake, également dotés de NPU, profitent de ces ventes. Désormais, ces processeurs n’arriveront que d’ici la fin de l’année. C’est peut-être beaucoup plus intéressant, à commencer par le fait que ces processeurs tripleront les performances de l’IA de Meteor Lake. Cela implique que cela vous permettra d’exécuter des LLM encore plus volumineux sur des ordinateurs portables et de bureau.
Enfin, la bibliothèque, et elle possède moins de la moitié des fonctions prévues. Il manque l’inférence à précision mixte qui peut s’exécuter sur le NPU lui-même, le format BFloat16 pour les charges de travail d’IA et le calcul hétérogène NPU-GPU.