A IA generativa é uma característica fundamental de todos os novos projetos de software e hardware, por isso não é surpresa que a Microsoft esteja desenvolvendo seus próprios modelos de aprendizado de máquina. VASA-1 é um exemplo, que pode transformar uma única imagem de uma pessoa e uma trilha de áudio em um videoclipe convincente dessa pessoa falando a gravação.
Há apenas alguns anos, qualquer coisa criada por IA generativa era instantaneamente identificável devido a vários fatores. Para imagens estáticas, isso pode incluir informações simples, como o número de dedos nas mãos de uma pessoa ou o número correto de pés. O vídeo gerado por IA foi ainda pior, mas pelo menos digno de meme.
No entanto, o relatório de investigação da Microsoft mostra que a natureza indiscutível da IA generativa está a desaparecer rapidamente. VASA-1 é um modelo de aprendizado de máquina que converte uma única imagem estática do rosto de uma pessoa em um vídeo curto e realista usando uma trilha de áudio de voz. O modelo examina as mudanças no tom e no ritmo do som e cria uma série de novas imagens com rostos modificados para corresponder ao áudio.
Alguns dos exemplos postados pela Microsoft são bons para começar, portanto esta explicação não é precisa. No entanto, outros receberam menos atenção e é evidente que os investigadores selecionaram os melhores exemplos para mostrar o seu trabalho. Em particular, um pequeno vídeo que demonstra a utilização do modelo em tempo real destaca que ainda temos um longo caminho a percorrer antes que a realidade física e a realidade gerada por computador se tornem indistinguíveis.
Mas ainda assim, o fato de tudo isso ter sido feito em um PC desktop, mesmo com um RTX 4090, em vez de um enorme supercomputador, significa que praticamente qualquer pessoa com acesso a esse software poderia usar a IA gerada mostra que é possível criar. deepfakes perfeitos. Os pesquisadores reconheceram isso em seu relatório de estudo.
“Não é nossa intenção criar conteúdo usado para enganar ou enganar. No entanto, como outras tecnologias de geração de conteúdo relacionadas, não se destina a ser usado para se passar por humanos. Nos opomos a qualquer atividade que crie conteúdo enganoso ou prejudicial sobre pessoas reais , e estamos interessados em aplicar nossa tecnologia para avançar na detecção de falsificações. ”
Talvez seja por isso que a pesquisa da Microsoft está sendo conduzida a portas fechadas. Dito isto, não posso imaginar que demoraria muito até que alguém fosse capaz não apenas de copiar esse trabalho, mas também de melhorá-lo e, possivelmente, usá-lo para fins nefastos. Por outro lado, se o VASA-1 pudesse ser usado para detectar deepfakes e implementado na forma de um simples aplicativo de desktop, isso seria um grande avanço. Na verdade, estaremos a um passo de um mundo onde a IA está condenada. todos nós. yay!

