
Une enquête a révélé que les géants de la technologie avaient obtenu des données provenant de plus de 170 000 vidéos YouTube diffusées sur plus de 48 000 chaînes non affiliées aux entreprises.
Alors que les pratiques controversées de développement, d'utilisation et de maintenance de l'intelligence artificielle restent un sujet brûlant, une enquête récente pourrait avoir révélé une utilisation grossière et non approuvée de vidéos YouTube dans la formation de modèles d'IA chez Apple, NVIDIA, Salesforce et d'autres géants de la technologie. . L’enquête suggère qu’un nombre massif de chaînes YouTube tierces et leur contenu pourraient avoir été récupérés par des collecteurs de données et utilisés sans autorisation dans le cadre de la formation de l’IA.
Une enquête à grande échelle a été menée par Proof News, comme le rapporteFilaire. L’enquête a porté sur les matériaux et les ensembles de données utilisés dans la formation des modèles d’IA, qui comprenaient des sous-titres et des transcriptions extraits d’environ 173 536 vidéos YouTube, représentant plus de 48 000 chaînes différentes. Ces données auraient été utilisées par un certain nombre de géants de la technologie, notamment Apple, NVIDIA, Salesforce et Anthropic.
— Marques Brownlee (@MKBHD)16 juillet 2024Apple a obtenu des données pour son IA auprès de plusieurs sociétés
L’un d’eux a récupéré des tonnes de données/transcriptions de vidéos YouTube, dont la mienne
Apple évite techniquement la "faute" ici car ce n'est pas eux qui grattent
Mais cela va être un problème évolutif pendant longtempshttps://t.co/U93riaeSlY
Parmi les sources de ces données utilisées dans cet ensemble de données « Sous-titres YouTube », figuraient des documents provenant de diverses chaînes éducatives et informatives telles que le MIT et Harvard, des groupes de médias d'information tels que la BBC et le Wall Street Journal, et même des sources de divertissement comme The Late Show With Stephen. Colbert et La semaine dernière ce soir avec John Oliver. Des créateurs de contenu YouTube massifs comme MrBeast, Jacksepticeye et PewDiePie figuraient également en bonne place parmi l'ensemble de données. Des créateurs tels queMarques Brownleedu podcast MKBHD a déclaré qu'ils n'avaient jamais donné la permission d'utiliser leurs vidéos de cette manière, mais que leur contenu avait quand même été utilisé.
Alors que les géants de la technologie recherchent fébrilement toutes les données qu’ils peuvent obtenir pour l’utilisation de l’IA de formation, il restera à voir si le tollé incitera à un ajustement ou à l’arrêt du traitement des données de vidéos non approuvées. Restez à l'écoute pendant que nous attendons d'autres mises à jour de cette histoire sur notreThème Intelligence Artificielle.
Rédacteur principal des nouvelles
TJ Denzer est un joueur et écrivain passionné par les jeux qui a dominé toute sa vie. Il a trouvé son chemin vers la liste de Shacknews fin 2019 et est depuis devenu rédacteur en chef principal de l'information. Entre la couverture médiatique, il participe également notamment à des projets de diffusion en direct comme Indie-licious, axé sur les jeux indépendants, les Shacknews Stimulus Games et le Shacknews Dump. Vous pouvez le joindre au[email protected]et retrouvez-le également sur Twitter@JohnnyChugs.