Não há necessidade de se preocupar com o fato de suas conversas secretas do ChatGPT serem capturadas na violação recentemente relatada dos sistemas da OpenAI. O hack em si, embora preocupante, é um lembrete de que as empresas de IA rapidamente se tornaram os alvos mais atraentes para os hackers, embora pareçam ter sido superficiais.
O New York Times relatou o hack com mais detalhes depois que o ex-funcionário da OpenAI, Leopold Aschenbrenner, fez alusão a ele em um podcast recente. Ele chamou isso de “grave incidente de segurança”, mas funcionários anônimos da empresa disseram ao Times que o hacker acessou apenas um fórum de discussão de funcionários. (Entrei em contato com a OpenAI para confirmação e comentários.)
As violações de segurança realmente não deveriam ser banalizadas, e certamente há valor em espionar conversas sobre o desenvolvimento interno do OpenAI. Mas isso não significa que os hackers tenham acesso a sistemas internos, modelos em desenvolvimento, roteiros secretos, etc.
Mas isso deveria nos assustar de qualquer maneira, e não necessariamente por causa da ameaça de que a China ou outros adversários nos ultrapassem na corrida armamentista da IA. O simples facto é que estas empresas de IA tornaram-se guardiãs de grandes quantidades de dados altamente valiosos.
Vamos falar sobre três tipos de dados que a OpenAI e, em menor medida, outras empresas de IA criam ou aos quais têm acesso. Dados de treinamento de alta qualidade, grandes quantidades de interação do usuário e dados do cliente.
Não está claro exatamente quais dados de treinamento eles possuem, já que a empresa é extremamente sigilosa sobre seu acúmulo. Mas seria um erro pensar que eles são apenas grandes pilhas de dados copiados da web. Sim, eles usam web scrapers e conjuntos de dados como o Pile, mas transformar esses dados brutos em algo que possa ser usado para treinar modelos como o GPT-4o é muito trabalhoso. Fazer isso requer muito tempo humano e só pode ser parcialmente automatizado.
Alguns engenheiros de aprendizado de máquina especulam que, de todos os elementos necessários para criar um modelo de linguagem em grande escala (ou talvez um sistema baseado em transformador), o mais importante é a qualidade do conjunto de dados. É por isso que um modelo treinado no Twitter ou no Reddit nunca será tão eloqüente quanto um modelo treinado em todos os trabalhos publicados no século passado. (Talvez seja por isso que a OpenAI supostamente usou fontes legalmente duvidosas, como livros protegidos por direitos autorais, para seus dados de treinamento, uma prática que eles afirmam ter abandonado.) Masu.)
Os conjuntos de dados de treinamento que a OpenAI constrói são, portanto, extremamente valiosos para os concorrentes, desde outras empresas até estados-nação hostis e reguladores aqui nos Estados Unidos. A FTC e os tribunais vão querer saber exatamente quais dados estavam sendo usados e se a OpenAI está dizendo a verdade. que?
Mas talvez ainda mais valiosos sejam os vastos dados de usuários do OpenAI, talvez bilhões de conversas com ChatGPT sobre centenas de milhares de tópicos. Assim como os dados de pesquisa já foram a chave para a compreensão da psicologia coletiva da web, o ChatGPT fornece uma imagem precisa do mundo de pessoas que podem não ser tão amplas quanto os usuários do Google, mas muito mais profundas. (Caso você não tenha percebido, suas conversas serão usadas para dados de treinamento, a menos que você desista.)
Para o Google, o aumento nas buscas por “ar condicionado” indica que o mercado está esquentando um pouco. Mas não discutem completamente o que querem, quanto estão dispostos a gastar, como é a sua casa, que fabricantes querem evitar, e assim por diante. Você sabe que isso é valioso porque o próprio Google está tentando converter os usuários para fornecer essas mesmas informações usando interações de IA em vez de pesquisa.
Pense em quantas conversas as pessoas têm usando o ChatGPT e como essas informações são úteis não apenas para desenvolvedores de IA, mas também para equipes de marketing, consultores e analistas. É um tesouro.
A última categoria de dados é provavelmente a mais valiosa no mercado público. Como os clientes realmente usam a IA, os dados que eles próprios inserem no modelo.
Centenas de grandes empresas e inúmeras pequenas empresas usam ferramentas como OpenAI e APIs da Anthropic para uma ampla variedade de tarefas. E tornar o modelo de linguagem útil para eles geralmente requer ajustes ou, de outra forma, dar-lhes acesso ao seu próprio banco de dados interno.
Isso pode ser algo tão mundano quanto uma planilha de orçamento antiga ou um registro pessoal (por exemplo, para facilitar a pesquisa) ou pode ser tão valioso quanto o código de um software não lançado. O que eles fazem com os recursos de IA (e se eles são realmente úteis) é trabalho deles, mas o simples fato é que, como qualquer produto SaaS, o provedor de IA tem acesso privilegiado.
Estes são segredos industriais e as empresas de IA estão subitamente no centro de muitos deles. A novidade deste aspecto da indústria apresenta riscos especiais, uma vez que os processos de IA ainda não estão padronizados ou totalmente compreendidos.
Tal como outros fornecedores de SaaS, as empresas de IA oferecem níveis de segurança, privacidade e opções locais padrão da indústria e são perfeitamente capazes de fornecer serviços de forma responsável, em geral. Não há dúvida de que os bancos de dados privados e as chamadas de API dos clientes Fortune 500 da OpenAI estão fortemente bloqueados. Precisam de estar igualmente, se não mais, conscientes dos riscos envolvidos no trabalho com dados sensíveis no contexto da IA. (O fato de a OpenAI não ter relatado esse ataque é escolha deles, mas não inspira confiança nas empresas que precisam desesperadamente dele.)
Mas as boas práticas de segurança não alteram o valor daquilo que você protege, nem o fato de que invasores mal-intencionados e outros adversários estão sempre tentando passar pela sua porta. Segurança é mais do que escolher as configurações corretas e manter seu software atualizado. Claro, o básico também é importante. É um jogo interminável de gato e rato, mas ironicamente agora alimentado pela própria IA, com agentes e ferramentas de automação de ataque investigando cada canto das superfícies de ataque dessas empresas.
Não há necessidade de entrar em pânico. As empresas com acesso a grandes quantidades de dados pessoais e comercialmente valiosos enfrentam e gerem riscos semelhantes há anos. Mas as empresas de IA representam um alvo mais novo, mais jovem e potencialmente mais atraente do que servidores empresariais mal configurados ou corretores de dados irresponsáveis. Mesmo hacks como o relatado acima não resultam em nenhuma violação grave de dados que tenhamos conhecimento, mas devem preocupar qualquer pessoa que faça negócios com uma empresa de IA. Eles têm um alvo pintado nas costas. Não se surpreenda se alguém ou todos tentarem.

