A Microsoft introduziu um novo modelo de inteligência artificial (IA) que pode gerar vídeos hiper-realistas de rostos humanos conversando. O modelo de imagem para vídeo de IA, chamado VASA-1, pode gerar vídeos a partir de apenas uma foto e um clipe de áudio. Segundo a empresa, os vídeos criados terão movimentos labiais sincronizados com o áudio, fazendo com que as expressões faciais e os movimentos da cabeça pareçam naturais. Notavelmente, a gigante da tecnologia afirma que não tem intenção de lançar quaisquer produtos ou APIs usando o modelo VASA-1 e que será usado para criar personagens virtuais realistas.
Em uma postagem em sua página de anúncio de pesquisa, a Microsoft detalhou como está desenvolvendo o modelo de IA e destacou suas capacidades. A empresa afirma que o modelo VASA-1 pode produzir vídeo com resolução de 512 x 512p a até 40 FPS. Diz-se também que este modelo de IA suporta a geração de vídeo online com um atraso de inicialização insignificante. Usuário X (anteriormente Twitter) Kaioken compartilhar Vídeo do modelo de IA em ação.
A maior conquista do VASA-1 é a capacidade de gerar até 1 minuto de vídeo (por demonstração) em alta qualidade com uma única imagem estática, mas a empresa também adicionou a capacidade de gerar movimentos labiais que correspondem aos arquivos de áudio. As expressões faciais que o acompanham. O modelo de geração de vídeo AI também fornece controle granular para que os usuários controlem vários aspectos do vídeo, como direção primária do olhar, distância da cabeça e deslocamento emocional. Esses controles de atributos para aparência desembaraçada, pose de cabeça 3D e dinâmica facial ajudam a modificar a saída precisamente de acordo com suas instruções.
Além disso, o modelo de IA também foi capaz de gerar vídeos usando fotos artísticas, vozes cantadas e vozes em outros idiomas. Os pesquisadores da Microsoft apontam que esses recursos funcionais estão ausentes nos dados da empresa, sugerindo que ela é capaz de autoaprendizado.
Vídeos de modelos de IA produzindo pessoas reais de forma hiper-realista com áudio são impressionantes, mas também levantam questões sobre seu uso antiético, especialmente para criar deepfakes. A empresa enfatizou que não pretende divulgar o modelo de IA ao público, mas sim utilizá-lo para criar personagens virtuais interativos.
A Microsoft também disse que a tecnologia pode ser usada para melhorar a detecção de falsificações. “Ao mesmo tempo que reconhecemos o potencial de abuso, é imperativo que reconheçamos o enorme potencial positivo da nossa tecnologia: melhorar a equidade na educação, aumentar a acessibilidade para indivíduos com dificuldades de comunicação. , destacando a importância de nossas pesquisas e outras explorações relacionadas. Nosso objetivo é promover o bem-estar humano, dedicando-se ao desenvolvimento de IA de forma responsável”, acrescentou a empresa.

