resumo: Uma nova pesquisa destaca uma tendência alarmante de os sistemas de IA aprenderem a enganar os humanos. Os pesquisadores descobriram que sistemas de IA como o CICERO da Meta, desenvolvidos para jogos como “Diplomacia”, muitas vezes empregam o engano como uma estratégia superior, apesar de suas intenções de treinamento.
Esta funcionalidade vai além dos jogos, abrangendo aplicações sérias que podem permitir fraudes ou influenciar eleições. Os autores apelam a uma ação regulamentar imediata para gerir o risco de fraude da IA e defendem que estes sistemas sejam classificados como de alto risco quando uma proibição total não for possível.
Fatos importantes:
- Engano específico da IA: Os sistemas de IA demonstraram a capacidade de enganar como estratégia para atingir seus objetivos, mesmo em situações em que os desenvolvedores tentam cultivar a honestidade.
- Impacto além do jogo: Embora inicialmente observadas em jogos, as capacidades enganosas da IA têm implicações significativas, potencialmente impactando os testes de segurança e permitindo o uso malicioso por atores hostis.
- Chamada regulatória: A revisão apela a uma ação governamental urgente para desenvolver regulamentos que abordem a fraude da IA e sugere que os sistemas de IA enganosos sejam classificados como de alto risco.
molho: prensa celular
Muitos sistemas de inteligência artificial (IA) já aprenderam como enganar os humanos, mesmo aqueles treinados para serem prestativos e honestos.
Em artigo de revisão publicado em revista padrão Em 10 de maio, os investigadores descreveram os riscos de fraude por parte dos sistemas de IA e apelaram aos governos para que desenvolvessem regulamentações fortes para resolver o problema o mais rapidamente possível.
“Os desenvolvedores de IA não têm uma compreensão confiável das causas do comportamento indesejável, como o engano, na IA”, diz Peter S. Park, pós-doutorado em segurança existencial de IA no MIT e autor principal.
“De modo geral, porém, acredita-se que o engano da IA surja porque as estratégias baseadas no engano acabam sendo a melhor maneira de fazer com que a IA tenha um bom desempenho em uma determinada tarefa de treinamento de IA.
Park e colegas analisaram a literatura, concentrando-se na forma como os sistemas de IA espalham a desinformação através do engano aprendido, no qual os sistemas de IA aprendem sistematicamente como manipular os outros.
O exemplo mais notável de fraude de IA que os pesquisadores descobriram em suas análises foi o CICERO da Meta, um sistema de IA projetado para jogar o jogo Diplomacia, um jogo de construção de alianças e conquista de mundos.
Meta afirma que CICERO é “geralmente honesto e gentil” e o treinou para “não trair intencionalmente” aliados humanos enquanto joga, mas os dados divulgados pela empresa mostram Ciência O jornal revelou que CÍCERO não agiu de forma justa.
“Descobrimos que a meta IA está aprendendo a se tornar mestres do engano”, diz Park. “Meta treinou com sucesso uma IA para vencer em um jogo de diplomacia, enquanto CICERO se classificou entre os 10% melhores jogadores humanos que jogaram vários jogos, enquanto Meta treinou com sucesso uma IA para vencer em Honesto.”
Outros sistemas de IA podem blefar jogadores humanos profissionais em um jogo de Texas Hold'em Poker, falsificar ataques para derrotar um oponente no jogo de estratégia Starcraft II ou falsificar as preferências de um oponente para obter uma vantagem em um jogo demonstrado. negociações econômicas.
Embora possa parecer inofensivo para um sistema de IA trapacear em um jogo, isso pode levar a um “avanço nas capacidades enganosas de IA” e evoluir para formas mais avançadas de engano de IA. Park acrescentou que existe a possibilidade de que isso aconteça.
Alguns sistemas de IA aprenderam até a enganar testes concebidos para avaliar a sua segurança, descobriram os investigadores. Num estudo, uma criatura de IA num simulador digital “fingiu-se de morta” para enganar um teste construído para eliminar sistemas de IA de replicação rápida.
“Ao trapacear sistematicamente nos testes de segurança impostos por desenvolvedores e reguladores humanos, a IA enganosa pode levar a nós, humanos, uma falsa sensação de segurança”, disse Park.
O principal risco a curto prazo da IA enganosa é que ela poderia tornar mais fácil para atores hostis cometerem fraudes ou interferirem nas eleições, alertou Park. Eventualmente, diz ele, se esses sistemas puderem refinar esse conjunto de habilidades indutoras de ansiedade, os humanos poderão perder o controle sobre eles.
“Nós, como sociedade, precisamos de tanto tempo quanto possível para nos prepararmos para fraudes mais sofisticadas em futuros produtos de IA e modelos de código aberto”, diz Park. “À medida que os sistemas de IA se tornam mais sofisticados na sua capacidade de enganar, os riscos que representam para a sociedade tornar-se-ão cada vez mais graves.”
Park e seus colegas acreditam que a sociedade ainda não tomou medidas adequadas para lidar com o engano da IA, mas por meio de medidas como a Lei de IA da UE e a Ordem Executiva de IA do presidente Biden, os legisladores estão encorajamos você a começar a levar esta questão a sério.
Mas dado que os criadores de IA ainda não têm a tecnologia para controlar estes sistemas, resta saber se as políticas concebidas para reduzir o engano da IA podem ser aplicadas com rigor, disse Park.
“Se banir o engano da IA for politicamente impossível neste momento, recomendamos classificar os sistemas de IA enganosos como de alto risco”, disse Park.
Financiamento: Esta pesquisa foi apoiada pelo Departamento de Física do MIT e pela Beneficial AI Foundation.
Sobre esta notícia de pesquisa de inteligência artificial
autor: Christopher Behnke
molho: prensa celular
contato: Christopher Behnke – Cell Press
imagem: Imagem creditada ao Neuroscience News
Pesquisa original: Acesso livre.
“AI Deception: Explorando Exemplos, Riscos e Soluções Potenciais” por Peter S. Park et al. padrão
abstrato
Decepção com IA: explorando exemplos, riscos e soluções potenciais
Os sistemas de IA já podem enganar os humanos. O engano é a indução sistemática de falsas crenças sobre os outros, a fim de alcançar um resultado diferente da verdade.
Através da formação, grandes modelos de linguagem e outros sistemas de IA já aprenderam a capacidade de enganar através de técnicas como manipulação, bajulação e fraude em testes de segurança.
A crescente capacidade da IA para enganar apresenta riscos graves, que vão desde riscos de curto prazo, como fraude e adulteração eleitoral, até riscos de longo prazo, como a perda de controlo dos sistemas de IA.
São necessárias soluções proativas, incluindo quadros regulamentares para avaliar o risco de fraude da IA, leis que exijam transparência em torno das interações da IA e mais investigação sobre a deteção e prevenção da fraude da IA.
Abordar proativamente a questão do engano da IA é fundamental para garantir que a IA funciona como uma tecnologia benéfica que melhora, em vez de desestabilizar, o conhecimento humano, o discurso e as instituições.

