Une nouvelle enquête menée par Proof News a révélé que certaines des plus grandes entreprises technologiques du monde, dont Apple, NVIDIA et Anthropic, ont utilisé des transcriptions de plus de 173 000 vidéos YouTube sans autorisation pour entraîner leurs modèles d'IA. Ces transcriptions provenaient de plus de 48 000 chaînes YouTube et faisaient partie d'un ensemble de données créé par l'association à but non lucratif EleutherAI.
Ce qui s'est passé?
L'enquête a révélé que l'ensemble de données comprenait des transcriptions de créateurs YouTube populaires comme Marques Brownlee et MrBeast, et de grands éditeurs de presse comme le New York Times, la BBC et ABC News. Bien que l'ensemble de données ne contienne pas de vidéos ou d'images réelles, il utilisait les sous-titres de ces vidéos comme données d'entraînement pour les modèles d'IA.
Marques Brownlee a commenté X, exprimant son inquiétude quant à la manière dont son contenu a été utilisé sans autorisation. Il a noté que ce problème est susceptible de perdurer à mesure que la technologie de l'IA évolue.
Position de YouTube
Un porte-parole de Google a réitéré les déclarations précédentes du PDG de YouTube, Neal Mohan, soulignant que l'utilisation des données YouTube pour former des modèles d'IA sans autorisation viole les conditions de service de la plateforme.
Manque de transparence
L’enquête met en lumière un problème plus large : les entreprises d’IA ne sont pas transparentes sur les sources de leurs données de formation. Plus tôt ce mois-ci, des artistes et des photographes ont critiqué Apple pour ne pas avoir divulgué les sources de données de son IA générative, Apple Intelligence.
YouTube, le plus grand référentiel de vidéos au monde, propose une multitude de transcriptions, d’audio, de vidéos et d’images, ce qui en fait une cible de choix pour les ensembles de données d’entraînement de l’IA. Cela a soulevé d’importantes questions éthiques et juridiques. Par exemple, Mira Murati, directrice technique d’OpenAI, a évité de révéler si des vidéos YouTube avaient été utilisées pour entraîner leur outil de génération de vidéos d’IA, Sora. Le PDG d’Alphabet, Sundar Pichai, a également reconnu que l’utilisation des données YouTube pour l’entraînement de l’IA sans autorisation enfreindrait les conditions de service de la plateforme.
Ce rapport souligne la nécessité de lignes directrices plus claires et d’une plus grande transparence dans la manière dont les données sont utilisées pour former les modèles d’IA, en particulier lorsqu’il s’agit de contenu créé par d’autres sans leur consentement.