× fechar
Os pesquisadores da Microsoft dizem que o modelo de IA que desenvolveram permite que os avatares tenham conversas realistas com expressões faciais sutis.
Pesquisadores da Microsoft revelaram uma nova ferramenta artificial que pode criar avatares humanos altamente realistas, mas não forneceram um cronograma para sua disponibilidade pública, citando preocupações sobre a promoção de conteúdo deepfake.
O modelo de IA, conhecido como VASA-1, que significa “habilidades emocionais visuais”, pode criar vídeos animados de pessoas conversando com movimentos labiais sincronizados usando apenas uma única imagem e um clipe de áudio de voz.
Os investigadores da desinformação receiam que as aplicações que utilizam a IA para criar fotografias, vídeos e clips de áudio “deepfake” possam ser amplamente exploradas num ano eleitoral crítico.
“Nos opomos a qualquer atividade que crie conteúdo enganoso ou prejudicial sobre pessoas reais”, escreveram os autores do relatório VASA-1 divulgado esta semana pela Microsoft Research Asia.
“Estamos empenhados em desenvolver a IA de forma responsável, com o objetivo de promover o bem-estar humano”, afirmaram.
“Não planejamos lançar quaisquer demonstrações online, APIs, produtos, detalhes adicionais de implementação ou produtos relacionados até que tenhamos certeza de que a tecnologia é usada de forma responsável e de acordo com os regulamentos apropriados”.
Os pesquisadores da Microsoft disseram que a tecnologia pode capturar uma ampla gama de nuances faciais e movimentos naturais da cabeça.
“Isso abre caminho para o envolvimento em tempo real com avatares realistas que emulam o comportamento conversacional humano”, disseram os pesquisadores em um post.
De acordo com a Microsoft, o VASA pode lidar com fotos artísticas, músicas e áudio em outros idiomas.
Os pesquisadores elogiaram os benefícios potenciais da tecnologia, incluindo o fornecimento de tutores virtuais aos alunos e o fornecimento de apoio terapêutico aos necessitados.
“Não é nossa intenção criar conteúdo para enganar ou enganar”, disseram eles.
O vídeo da VASA ainda contém “artefatos” indicando que foi gerado por IA, dizia o post.
“Eu ficaria emocionado em ouvir sobre alguém usando o ProPublica pela primeira vez como delegado em uma reunião Zoom”, disse Ben Werdmuller, chefe de tecnologia da ProPublica.
“Como foi? Alguém percebeu?”, disse ele em um tópico na rede social.
Em março, a OpenAI, desenvolvedora do ChatGPT, anunciou uma ferramenta de clonagem de voz chamada “Voice Engine”, que pode essencialmente duplicar a voz de alguém com base em uma amostra de áudio de 15 segundos.
No entanto, ele disse: “Estamos adotando uma abordagem cautelosa e informada para uma divulgação mais ampla devido ao potencial de uso indevido do discurso sintético”.
No início deste ano, um consultor que trabalha para um importante candidato presidencial democrata admitiu que esteve envolvido em chamadas automáticas que se faziam passar por Joe Biden, enviadas aos eleitores de New Hampshire, num esforço para destacar os perigos da IA declarada.
A ligação incluía o que parecia ser a voz de Biden exortando as pessoas a não votarem nas primárias do estado em janeiro, e estava ligada à desinformação falsa alimentada por IA na corrida à Casa Branca de 2024. Isso gerou alarme entre os especialistas que temem que a área possa inundar.

