Apple, NVIDIA et Anthropic ont utilisé des transcriptions YouTube sans autorisation pour former des modèles d'IA –

Une nouvelle enquête menée par Proof News a révélé que certaines des plus grandes entreprises technologiques du monde, dont Apple, NVIDIA et Anthropic, ont utilisé des transcriptions de plus de 173 000 vidéos YouTube sans autorisation pour entraîner leurs modèles d'IA. Ces transcriptions provenaient de plus de 48 000 chaînes YouTube et faisaient partie d'un ensemble de données créé par l'association à but non lucratif EleutherAI.

Ce qui s'est passé?

L'enquête a révélé que l'ensemble de données comprenait des transcriptions de créateurs YouTube populaires comme Marques Brownlee et MrBeast, et de grands éditeurs de presse comme le New York Times, la BBC et ABC News. Bien que l'ensemble de données ne contienne pas de vidéos ou d'images réelles, il utilisait les sous-titres de ces vidéos comme données d'entraînement pour les modèles d'IA.

Marques Brownlee a commenté X, exprimant son inquiétude quant à la manière dont son contenu a été utilisé sans autorisation. Il a noté que ce problème est susceptible de perdurer à mesure que la technologie de l'IA évolue.

Apple a obtenu des données pour son IA auprès de plusieurs entreprises

L'un d'eux a récupéré des tonnes de données/transcriptions de vidéos YouTube, y compris la mienne

Apple évite techniquement la « faute » ici car ce ne sont pas eux qui grattent

Mais cela va être un problème en évolution pendant longtemps https://t.co/U93riaeSlY

12/07/2026 à 21:16

Fujitsu PY NVIDIA Tesla P100 pour PCIe 16 Go

Amazon

Fujitsu PY NVIDIA Tesla P100 pour PCIe 12 Go

Amazon

MagentaTV One (2e génération) | Box TV Android avec Wi-FI & LAN I MagentaTV avec 150+ Stations HD, 4K UHD, HDR, en Direct et différé | (Netflix, Disney+, RTL+, DAZN, Wow, Apple TV+) et Google Play

Amazon

— Marques Brownlee (@MKBHD) 16 juillet 2024

Position de YouTube

Un porte-parole de Google a réitéré les déclarations précédentes du PDG de YouTube, Neal Mohan, soulignant que l'utilisation des données YouTube pour former des modèles d'IA sans autorisation viole les conditions de service de la plateforme.

A lire également Samsung fait face à des critiques pour avoir « cloné » des produits Apple après l'événement Galaxy Unpacked 2024 -

Manque de transparence

L’enquête met en lumière un problème plus large : les entreprises d’IA ne sont pas transparentes sur les sources de leurs données de formation. Plus tôt ce mois-ci, des artistes et des photographes ont critiqué Apple pour ne pas avoir divulgué les sources de données de son IA générative, Apple Intelligence.

YouTube, le plus grand référentiel de vidéos au monde, propose une multitude de transcriptions, d’audio, de vidéos et d’images, ce qui en fait une cible de choix pour les ensembles de données d’entraînement de l’IA. Cela a soulevé d’importantes questions éthiques et juridiques. Par exemple, Mira Murati, directrice technique d’OpenAI, a évité de révéler si des vidéos YouTube avaient été utilisées pour entraîner leur outil de génération de vidéos d’IA, Sora. Le PDG d’Alphabet, Sundar Pichai, a également reconnu que l’utilisation des données YouTube pour l’entraînement de l’IA sans autorisation enfreindrait les conditions de service de la plateforme.

Ce rapport souligne la nécessité de lignes directrices plus claires et d’une plus grande transparence dans la manière dont les données sont utilisées pour former les modèles d’IA, en particulier lorsqu’il s’agit de contenu créé par d’autres sans leur consentement.