Runway, une start-up spécialisée dans la vidéo IA, aurait entraîné son modèle Gen-3 sur des « milliers » de vidéos YouTube et de films piratés sans obtenir d’autorisation. Ces informations proviennent de 404 Media, qui affirme avoir obtenu des feuilles de calcul internes de Runway détaillant les sources de leurs données d’entraînement.
Collecte de données non autorisée
Selon le rapport, Runway ciblait le contenu de chaînes YouTube très en vue, comme celles appartenant à Disney, Netflix, Pixar et à divers médias populaires. Un ancien employé de Runway a révélé que l'entreprise signalait les vidéos qu'elle souhaitait et les téléchargeait à l'aide d'un logiciel proxy open source pour éviter d'être détectée.
Spécificités des données de formation
Les feuilles de calcul contenaient des mots-clés tels que « astronaute », « fée » et « arc-en-ciel », avec des annotations sur la qualité et le type de vidéos trouvées. Par exemple, le mot-clé « super-héros » comportait une note indiquant « de nombreux extraits de films ». De plus, les chaînes liées à Unreal Engine, au cinéaste Josh Neuman et à une page de fan de Call of Duty étaient réputées pour proposer des vidéos d’entraînement « à mouvements intenses ».
Une feuille de calcul a répertorié près de 4 000 chaînes YouTube, dont CBS New York, AMC Theaters, Pixar, Disney Plus et le Monterey Bay Aquarium. L'entreprise a également compilé une liste de vidéos provenant de sites de piratage, notamment des archives non autorisées de films du Studio Ghibli et d'autres contenus populaires.
Preuve d'utilisation non autorisée
404 Media a testé le générateur de vidéos de Runway en lui demandant les noms des YouTubeurs populaires répertoriés dans les feuilles de calcul. Les résultats ressemblaient beaucoup aux vidéos originales, tandis que les anciennes versions du modèle d'IA produisaient des résultats sans rapport. Suite aux demandes de renseignements de 404 Media, l'outil d'IA de Runway a cessé de générer ces résultats spécifiques, ce qui suggère une tentative délibérée d'éviter la détection.
Réponse de l’industrie
Un porte-parole de YouTube a réitéré la position de l'entreprise selon laquelle l'utilisation de ses vidéos pour la formation de l'IA sans autorisation constitue une « violation flagrante » de ses conditions d'utilisation. Runway n'a pas répondu aux demandes de commentaires avant la publication du rapport.
Implications juridiques et éthiques
Cet incident met en lumière les problèmes actuels liés aux données d’entraînement de l’IA et aux droits de propriété intellectuelle. Alors que certaines entreprises, comme OpenAI, se tournent vers des accords de licence pour les données d’entraînement, d’autres semblent exploiter des contenus accessibles au public sans autorisation. Cette pratique soulève des questions juridiques et éthiques alors que la course au développement de l’IA se poursuit.