- OpenAI, Meta, Google e outras grandes empresas de tecnologia usam dados online para treinar seus modelos de IA.
- No entanto, os modelos de IA aprendem tão rapidamente que todos os dados poderão estar esgotados até 2026.
- Então, como os sistemas de IA continuam a aprender?A Big Tech tem algumas ideias interessantes.
Quando se trata de IA, quanto mais, melhor. Quanto mais dados um sistema de IA for treinado, mais poderoso ele se tornará.
Mas à medida que a corrida armamentista da IA se intensifica, grandes empresas de tecnologia como Meta, Google e OpenAI enfrentam falta de dados para treinar seus modelos.
Muitos dos principais sistemas de IA são treinados em um vasto suprimento de dados online. Mas todos os dados de alta qualidade poderão ser esgotados até 2026, de acordo com o instituto de pesquisa de IA Epoch.
Como resultado, as principais empresas de tecnologia estão procurando novas fontes de dados para continuar aprendendo seus sistemas. Aqui estão algumas das opções mais criativas que as empresas de tecnologia estão considerando.
O Google procurou aproveitar os dados do consumidor disponíveis no Documentos, Planilhas e Apresentações Google.
No verão passado, o departamento jurídico do Google começou a pedir aos funcionários que expandissem a linguagem sobre o uso de dados de consumidores, informou o Times. Alguns funcionários foram informados de que a empresa queria usar dados de avaliações de restaurantes em versões gratuitas para consumidores do Google Docs, Google Sheets, Google Slides e até mesmo do Google Maps.
O Google atualizou sua política de privacidade em julho de 2023, mas a empresa disse que não expandiu os tipos de dados que usa para treinar seus modelos de IA.
Faça alarde na editora Simon & Schuster.
Na Meta, os executivos estavam preocupados com a diminuição da oferta de dados disponíveis e reuniram-se quase todos os dias em Março e Abril do ano passado para debater alternativas, informou o Times.
Uma das ideias que surgiram destas reuniões foi adquirir a Simon & Schuster. A famosa editora, que trabalhou com autores como Stephen King e Jennifer Weiner, foi adquirida pela empresa de private equity KKR no ano passado por US$ 1,62 bilhão.
Outros participantes sugeriram a opção mais econômica de pagar US$ 10 por livro pelos direitos totais de licenciamento de novos títulos.
Gerando dados sintéticos
Dados sintéticos são dados gerados por um sistema de IA e a OpenAI os considera uma opção para modelos.
“Contanto que o modelo consiga sobreviver ao horizonte de eventos de dados sintéticos, seja inteligente o suficiente para criar bons dados sintéticos”, disse o CEO da OpenAI, Sam Altman, em uma conferência de tecnologia em maio passado, de acordo com o jornal.
O problema com o treinamento de sistemas de IA em dados sintéticos é que isso pode reforçar alguns dos erros e limitações da IA, informou o Times. Para resolver isso, a OpenAI está trabalhando em um processo em que um sistema de IA gera dados e outro sistema de IA toma decisões sobre eles.
Em 28 de fevereiro, Axel Springer, empresa controladora do Business Insider, juntou-se a outros 31 grupos de mídia para abrir uma ação judicial de US$ 2,3 bilhões contra o Google no tribunal holandês, alegando perdas causadas pelas práticas publicitárias da empresa.
Axel Springer, empresa controladora do Business Insider, tem um acordo global que permite à OpenAI treinar modelos com base nos relatórios de suas marcas de mídia.

