Com o boom da inteligência artificial generativa em curso, as empresas de tecnologia procuram dados de formação para melhorar os seus modelos, e algumas estão a aceitá-los sem permissão.
Apple, Nvidia e Antrópico Modelo de IA treinado com legendas de dezenas de milhares de vídeos do YouTube Apesar da plataforma Regras contra download e uso não autorizado de conteúdode acordo com uma investigação da Proof News co-publicada com a Wired.
A investigação revelou que as empresas usavam um conjunto de dados chamado YouTube Subtitles, que continha transcrições de 173.536 vídeos do YouTube de mais de 48 mil canais. Os vídeos em nosso conjunto de dados variam de canais educacionais, como Khan Academy e MIT, a sites de notícias, como o Wall Street Journal, e os principais criadores em plataformas como MrBeast e Marques Brownlee.
“A Apple obtém dados para sua IA de várias empresas”, escreveu Brownlee no artigo. Postar em X Estamos trabalhando em uma investigação. “Um deles coletou uma grande quantidade de dados/transcrições de vídeos do YouTube, incluindo o meu.”
“A Apple não está se esforçando, então tecnicamente eles estão evitando a ‘falha’ aqui”, disse Brownlee, mas “este será um problema em evolução e de longo prazo”, acrescentou.
Notícias de evidências também criou uma ferramenta Os criadores podem pesquisar conteúdo em um conjunto de dados que inclui vários vídeos do Quartz. O conjunto de dados de legendas do YouTube não contém imagens de vídeos, mas contém legendas traduzidas para idiomas como alemão e árabe.
Este conjunto de dados foi criado pela Eleuther AI, uma “organização de pesquisa de IA sem fins lucrativos”. focado em O objetivo é “promover normas científicas abertas” e faz parte da “pilha” de materiais de outros lugares da organização sem fins lucrativos, incluindo o Parlamento Europeu e a Wikipédia em inglês, de acordo com o Proof News.
“O conjunto de dados Pile mencionado no artigo de pesquisa foi treinado em 2021 para fins acadêmicos e de pesquisa”, disse um porta-voz da Salesforce, uma das empresas citadas na investigação sobre o uso do conjunto de dados, em comunicado compartilhado com Quartz. “O conjunto de dados está disponível publicamente e lançado sob uma licença permissiva.”
Apple, Nvidia e Anthropic não responderam imediatamente aos pedidos de comentários.
Em abril, o CEO do YouTube, Neil Mohan disse à Bloomberg Afirma que as empresas que utilizam vídeos do YouTube, incluindo transcrições e bits de vídeo, para treinar modelos de IA, como o gerador de texto para vídeo Sora da OpenAI, estariam em “clara violação” das políticas da plataforma. No entanto, o New York Times informou alguns dias depois que OpenAI Transcreveu mais de 1 milhão de horas de vídeos do YouTube Treine o modelo GPT-4.

