- Os editores buscam compensação da OpenAI por usarem seus trabalhos protegidos por direitos autorais para treinar modelos de IA.
- O Center for Investigative Reporting abriu uma ação judicial contra a empresa esta semana.
- O New York Times e outras organizações de notícias abriram processos semelhantes contra a OpenAI.
OpenAI treina ChatGPT usando quaisquer dados públicos, incluindo livros e artigos da Internet. Agora, os proprietários deles querem ser pagos pelo seu trabalho.
Os dados de treinamento são uma parte essencial da criação dos modelos de IA que dominarão o mundo da tecnologia. Grandes empresas de tecnologia como Google, Meta, OpenAI, Anthropic e Microsoft estão ansiosas para descobrir novas fontes de dados. A certa altura, Mehta considerou comprar a Simon & Schuster, uma das maiores editoras do mundo.
Parte do problema é que os editores acusam cada vez mais estas empresas de fabricarem dados protegidos por direitos de autor. Eles querem ser pagos pelo seu trabalho. Meta e OpenAI disseram em comentários ao Escritório de Direitos Autorais dos EUA que a publicação de material protegido por direitos autorais na Internet torna esse material “disponível publicamente” e, portanto, sujeito ao uso justo.
Mas a empresa ainda terá que apresentar seu caso em tribunal, já que enfrenta ações judiciais de diversas partes por material protegido por direitos autorais.
O Center for Investigative Reporting, uma organização sem fins lucrativos conhecida pela sigla CIR que se fundiu com Mother Jones e Reveal no início deste ano, processou a OpenAI e a Microsoft em um tribunal federal na semana passada. O processo acusa a OpenAI de ser “construída com base na exploração de obras protegidas por direitos autorais de propriedade de criadores de todo o mundo, incluindo o CIR”.
Os advogados do CIR acusaram a OpenAI e a Microsoft de usar material protegido por direitos autorais da Mother Jones para treinar modelos GPT e Copilot AI.
“A OpenAI e a Microsoft começaram a desviar nossos artigos para tornar seus produtos mais poderosos, mas, diferentemente de outras organizações que licenciam nosso material, elas não pedem permissão nem oferecem compensação. “Em nenhum momento fizemos isso”, Monica Bauerlein, CEO da o Center for Investigative Reporting, disse em um comunicado. Sobre o processo. “Esse comportamento de carona não é apenas injusto, é uma violação de direitos autorais.”
A lista pública dos principais domínios da web no conjunto de treinamento WebText da empresa incluía “16.793 URLs diferentes do domínio da web Mother Jones”, de acordo com a denúncia.
Em outra ação coletiva movida pelo Author's Guild, dois autores alegaram que a empresa usou informações de seus livros para treinamento do ChatGPT. O New York Times também abriu um processo semelhante contra a empresa em dezembro de 2023.
Em maio, documentos judiciais no processo do Authors Guild revelaram que a OpenAI havia excluído dois grandes conjuntos de dados usados para treinar o GPT-3. Os advogados da guilda disseram que os dois conjuntos provavelmente continham “mais de 100 mil livros publicados”.
Dois funcionários que compilaram os dados não trabalham mais para a OpenAI, de acordo com documentos judiciais.
A OpenAI começou a celebrar acordos de licenciamento com organizações de notícias para garantir o uso justo do seu trabalho. A empresa celebrou tais acordos com Axel Springer, editor da Associated Press, do Wall Street Journal e do New York Post, do Atlantic, da Purisa Media, do Le Monde, do Financial Times e do Business Insider.
Mas dada a escala de conteúdo que esses bots precisam aprender continuamente, eles precisam de muito mais do que alguns contratos de licença.
Uma solução são os dados sintéticos. Não é coletado do mundo real, mas gerado artificialmente e pode ser facilmente gerado por algoritmos de aprendizado de máquina.
A OpenAI está considerando dados sintéticos como uma opção para modelos de treinamento, mas o CEO Sam Altman expressou preocupação com a produção de dados de alta qualidade.
“Enquanto o modelo puder sobreviver ao horizonte de eventos de dados sintéticos com inteligência suficiente para criar bons dados sintéticos, tudo ficará bem.” Altman disse: A empresa também investigou o processo pelo qual os modelos de IA funcionam em conjunto: um sistema de IA gera dados e outro sistema de IA toma decisões sobre eles.
A OpenAI não respondeu imediatamente a um pedido de comentário do Business Insider.

