Pesquisadores da Microsoft publicaram um artigo esta semana dizendo: VASA-1é uma nova ferramenta de IA que pode gerar um vídeo convincente de alguém falando usando apenas uma imagem estática. A Microsoft não tem planos de disponibilizar esta nova ferramenta ao público tão cedo, mas é bastante impressionante. Bem, se você não olhar bem de perto os dentes, é impressionante. Basta dar uma olhada nas pessoas comendo isso.
O modelo VASA-1 funciona tirando uma foto de um rosto humano. No exemplo, Publicado pela Microsofta IA pode gerar um rosto humano que na verdade não existe e, quando inserido com um arquivo de áudio, pode gerar um vídeo sincronizado que inclui nuances faciais e movimentos de aparência natural.
Novamente, é tudo muito impressionante, como você pode ver em um dos vídeos que a Microsoft disponibilizou abaixo. No entanto, uma área onde o VASA-1 parece ter dificuldades é a produção de dentes. Focar nos dentes pode dar-lhes uma qualidade de desenho animado, fazendo com que pareçam ligeiramente animados de uma forma que não corresponde à qualidade surreal de todo o resto.
Diminuir a velocidade geral, como o Gizmodo fez no GIF abaixo, revela ainda mais os dentes estranhos deste vídeo. (É quase uma sensação ruim desmontar a aparência de alguém até que você se lembre de que a pessoa por baixo literalmente não existe.)
Outro exemplo de vídeo fornecido pela Microsoft, mostrado abaixo, mostra uma qualidade de desenho animado semelhante aos dentes. No entanto, outros recursos parecem muito realistas, especialmente se você lembrar que o material de origem são apenas imagens estáticas e arquivos de áudio.
Por alguma razão, os dentes ficam um pouco menos visíveis nos vídeos que mostram o homem. Provavelmente porque a modelo mostrava o homem não abrindo bem a boca enquanto falava. Mas se você olhar de perto, poderá sentir que algo está errado aqui.
Um dos pontos mais interessantes observados pelos pesquisadores é que seu modelo pode gerar vídeos de qualidade relativamente alta muito rapidamente, o que também é favorecido por outros geradores de IA. OpenAI Sora É relatado que ele lutou com Na verdade, o artigo relata uma latência de apenas 0,17 segundos em um único PC desktop NVIDIA. GPU RTX 4090.
E é rápido o suficiente para fornecer vídeo instantâneo para diversas aplicações, incluindo serviços de tradução em tempo real.
“Nosso método não apenas fornece vídeos de alta qualidade com dinâmica realista de rosto e cabeça, mas também suporta a geração online de vídeos de 512×512 a até 40 FPS com atraso de inicialização insignificante, abrindo caminho para o envolvimento em tempo real com avatares realistas. emular o comportamento conversacional humano”, diz o novo artigo.
Os investigadores estão claramente conscientes dos perigos deste tipo de tecnologia, o que talvez explique por que a Microsoft ainda não anunciou planos para levar a tecnologia ao público. No entanto, os investigadores também identificaram casos de uso que podem ser úteis para a humanidade.
“Benefícios como melhorar a equidade educacional, aumentar a acessibilidade para indivíduos com dificuldades de comunicação e fornecer companhia e apoio terapêutico para aqueles que precisam tornam nossa pesquisa e outras atividades relacionadas importantes.” bem-estar humano”, diz o jornal.
“Dada esta situação, não planejamos lançar quaisquer demonstrações online, APIs, produtos, detalhes adicionais de implementação ou produtos relacionados até que tenhamos certeza de que a tecnologia é usada de forma responsável e de acordo com os regulamentos apropriados.”
Provavelmente é uma boa ideia, considerando número de golpes Esse tipo de tecnologia torna isso possível. Afinal, faltam apenas sete meses para as eleições presidenciais dos EUA em 2024.E essa A ameaça global do fascismo Não irá desaparecer tão cedo. A humanidade agora se sente verdadeiramente impotente contra as falsificações geradas pela IA. E grandes empresas como a Microsoft deveriam fazer tudo o que estiver ao seu alcance para limitar os danos potenciais antes que praticamente tudo na Internet se torne falso.

