O modelo VLOGGER AI do Google pode gerar avatares de vídeo a partir de imagens. Qual poderia ser o problema?

O VLOGGER tira uma única foto de alguém e vai além dos tipos anteriores de software “talking head” para capturá-la com alta fidelidade e em vários comprimentos, incluindo expressões faciais e movimentos corporais precisos, até um piscar de olhos. Você pode criar clipes.

Google

A comunidade de inteligência artificial (IA) tornou-se muito boa na criação de vídeos falsos – basta olhar para Sora, da OpenAI, que apresentou um plano imaginário engenhoso no mês passado. Você precisa fazer perguntas inteligentes e práticas. Devo parar de fazer todos esses vídeos?

Também: A OpenAI lançou um modelo de texto para vídeo e os resultados são surpreendentes.Veja por si mesmo

Esta semana, o estudioso do Google Enric Corona e seus colegas responderam: “Use a ferramenta VLOGGER para controlá-los”. O VLOGGER pode gerar vídeos em alta resolução de pessoas conversando com base em uma única foto. Mais importante ainda, o VLOGGER pode animar vídeos de acordo com amostras de áudio. Isso significa que a tecnologia pode animar vídeos como imagens humanas controladas ou “avatares” de alta fidelidade.

Todos os tipos de criações são possíveis com esta ferramenta. No nível mais simples, a equipe de Corona sugere que os VLOGGERs poderiam ter um grande impacto nos avatares do suporte técnico, porque humanos que falam artificialmente e parecem mais realistas podem “desenvolver empatia”. Eles sugerem que a tecnologia poderia “permitir casos de uso inteiramente novos, incluindo comunicações on-line aprimoradas, educação e assistentes virtuais personalizados”.

Os VLOGGERs também podem levar a uma nova fronteira de deepfakes, que fazem com que declarações e ações feitas por pessoas reais pareçam genuínas. A equipe Corona fornecerá informações sobre o impacto social do VLOGGER em materiais de apoio suplementares. No entanto, essa documentação não está disponível na página GitHub do projeto. A ZDNET contatou a Corona para obter documentação de apoio, mas não recebeu resposta no momento da publicação.

Também: À medida que os agentes de IA se tornam mais difundidos, os riscos aumentarão, dizem os académicos.

Conforme explicado no artigo oficial “VLOGGER: Difusão Multimodal para Síntese de Avatar Incorporado”, a equipe de Corona pretende superar as imprecisões dos avatares de última geração. “Criar vídeos realistas de humanos ainda é complexo e repleto de artefatos”, escreveu a equipe de Corona.

A equipe de pesquisa apontou que os avatares de vídeo existentes geralmente cortam o corpo e as mãos, deixando apenas o rosto visível. O VLOGGER permite que você visualize todo o seu torso junto com os movimentos das mãos. Outras ferramentas normalmente oferecem apenas sincronização labial básica, com variação limitada nas expressões faciais e poses. VLOGGER pode produzir “vídeos de alta resolução de movimentos da cabeça e da parte superior do corpo” […] Ele apresenta uma ampla variedade de expressões faciais e gestos e é “a primeira abordagem para gerar fala e movimento humanos com entrada de áudio”.

Como explicou a equipe de pesquisa: “É precisamente a automação e o realismo comportamental que [are] O que pretendemos fazer com esta pesquisa: VLOGGER é um nível complexo de movimentos faciais e corporais com representações visuais animadas e de áudio projetadas para apoiar conversas naturais com usuários humanos. Uma interface multimodal para agentes conversacionais incorporados, apresentando um aumento no . ”

exemplo-google-2024-vlogger — Com base em uma única foto (esquerda), o software VLOGGER utiliza um processo conhecido como “difusão” para prever quais frames de vídeo (direita) acompanharão cada momento de um arquivo de áudio em que alguém está falando, e depois de frames de vídeo em alta resolução. -Qualidade de resolução.

Google

VLOGGER resume algumas das últimas tendências em aprendizagem profunda.

A multimodalidade agrega muitos modos que as ferramentas de IA podem absorver e sintetizar, como texto e áudio, imagens e vídeo.

Grandes modelos de linguagem, como o GPT-4 da OpenAI, permitem usar linguagem natural como entrada para realizar vários tipos de ações, como criar parágrafos de texto, músicas ou imagens.

Os pesquisadores também descobriram recentemente várias maneiras de criar imagens e vídeos de aparência realista, melhorando a “divulgação”. O termo se origina da física molecular e refere-se à maneira como as partículas de matéria passam de altamente concentradas em uma área específica para se tornarem mais difusas à medida que a temperatura aumenta. Por analogia, bits de informação digital parecem estar “espalhados” a ponto de se tornarem incoerentes devido ao ruído digital.

Também: Além do Gemini, a IA de código aberto tem seus próprios truques de vídeo

Com o surgimento da IA, o ruído é introduzido na imagem, a imagem original é reconstruída e uma rede neural é treinada para encontrar as regras construídas. A difusão está no centro dos impressionantes processos de geração de imagens no Stable Diffusion da Stable AI e no DALL-E da OpenAI. É também assim que o OpenAI cria vídeos suaves com Sora.

Para o VLOGGER, a equipe de Corona treinou uma rede neural para associar o áudio de um locutor a quadros individuais do vídeo desse locutor. A equipe usou outra inovação recente, o Transformer, para combinar um processo de difusão que reconstrói quadros de vídeo a partir de áudio.

O Transformer usa métodos de atenção para prever quadros de vídeo com base em quadros que ocorreram no passado, em combinação com áudio. Ao prever ações, as redes neurais aprendem como renderizar com precisão os movimentos das mãos e do corpo e as expressões faciais quadro a quadro, em sincronia com o áudio.

A etapa final utiliza as previsões da primeira rede neural, seguida por uma segunda rede neural que também utiliza difusão para aprimorar a geração de quadros de alta resolução para o vídeo. Esta segunda etapa também é o limite máximo para os dados.

Também: A IA generativa falha nesta capacidade muito comum do pensamento humano.

Para criar as imagens de alta resolução, a equipe de Corona compilou o MENTOR, um conjunto de dados com 800 mil “identidades” de vídeos de pessoas conversando. O MENTOR consiste em 2.200 horas de vídeo, que a equipe afirma ser “o maior conjunto de dados já usado em termos de identidade e duração” e 10 vezes maior que os conjuntos de dados comparáveis anteriores.

Os autores descobriram que o processo poderia ser aprimorado com uma etapa subsequente chamada “ajuste fino”. Já tendo sido “pré-treinados” no MENTOR, podemos enviar vídeos completos ao VLOGGER para capturar de forma mais realista as idiossincrasias dos movimentos da cabeça humana, como piscar. “Ao ajustar o modelo de difusão com mais dados, o VLOGGER pode mostrar como capturar melhor a identidade em vídeos monoculares de sujeitos, por exemplo, quando a imagem de referência parece ter os olhos fechados. A equipe chama esse processo de “personalização”.

arquitetura-google-2024-vlogger — A rede neural do VLOGGER é uma combinação de duas redes neurais diferentes. O primeiro usa “atenção mascarada” por meio de transformadores para prever quais pausas ocorrerão dentro de um quadro do vídeo com base no som do sinal de áudio gravado pelo alto-falante. A segunda rede neural usa difusão para gerar uma sequência coerente de quadros de vídeo usando movimentos corporais e sinais faciais da primeira rede neural.

Google

O ponto principal desta abordagem é que ela combina as previsões dentro de uma única rede neural com imagens de alta resolução, e o que torna o VLOGGER tão provocativo é que o programa, como o Sora, simplesmente gera vídeos. O VLOGGER vincula esse vídeo a ações e expressões que você pode controlar. Seu vídeo realista se desenrola e pode ser manipulado como uma marionete.

Também: O CEO da Nvidia, Jensen Huang, revela a família de chips ‘Blackwell’ de próxima geração no GTC

“Nosso objetivo é preencher a lacuna entre os esforços recentes de composição de vídeo que podem gerar vídeos dinâmicos sem controlar identidade ou pose, e métodos controláveis de geração de imagens”, diz a equipe de Corona.

O VLOGGER pode não apenas ser um avatar acionado por voz, mas também potencialmente levar a recursos de edição, como alterar a boca ou os olhos do sujeito que fala. Por exemplo, você pode mudar uma pessoa virtual em um vídeo que pisca muito para piscar pouco ou nada. Você também pode restringir sua fala com a boca larga para fazer movimentos labiais mais detalhados.

google-2024-vlogger-editados-vídeos.png — Permitindo controlar vídeo de alta definição por meio de sinais de áudio, o VLOGGER abre caminho para que operações como alterar os movimentos dos lábios do locutor em cada trecho do vídeo sejam diferentes do vídeo original.

blogueiro de vídeo

Apesar de alcançar novas tecnologias de ponta para simular humanos, a questão que a equipa Corona não abordou é o que o mundo deveria esperar do uso indevido da tecnologia. É fácil imaginar o retrato de um político dizendo coisas absolutamente devastadoras sobre, digamos, uma guerra nuclear iminente.

Talvez o próximo passo neste jogo Avatar seja a sociedade detectar de uma forma surpreendentemente realista quais alto-falantes são reais e quais são apenas deepfakes, semelhante ao teste Voight Kampf do filme Blade Runner. Será uma rede neural que permitirá que você fazer isso.

Source link

What's Hot

Atum General apresenta equipe feminina de ciclismo

Matosinhos reforça segurança com 86 câmaras de videovigilância em 56 pontos do concelho

8º Moinho Cine Fest celebra liberdade em Custóias

O modelo VLOGGER AI do Google pode gerar avatares de vídeo a partir de imagens. Qual poderia ser o problema?

As ações da Microsoft caem mais de 6% após queda nos lucros devido à última decepção com IA

Airtable adquire startup de integração de talentos de IA Dopt

Os avatares de IA poderão em breve participar de reuniões em nosso nome, mas certamente parece uma ladeira escorregadia em direção a um futuro de IA que nenhum de nós deseja.

As ações da Microsoft caem mais de 6% após queda nos lucros devido à última decepção com IA

Airtable adquire startup de integração de talentos de IA Dopt

Os avatares de IA poderão em breve participar de reuniões em nosso nome, mas certamente parece uma ladeira escorregadia em direção a um futuro de IA que nenhum de nós deseja.

Microsoft pede novas leis contra golpes deepfake e imagens de abuso sexual de IA

Subscribe to Updates

What's Hot

O modelo VLOGGER AI do Google pode gerar avatares de vídeo a partir de imagens. Qual poderia ser o problema?

Related Posts