O laboratório de pesquisa de IA do Google, DeepMind, disse que está desenvolvendo tecnologia de IA para gerar trilhas sonoras de vídeo.
A DeepMind disse em um post em seu blog oficial que acredita que esta tecnologia, V2A (abreviação de “vídeo para áudio”), é uma peça importante do quebra-cabeça de mídia gerado por IA. Muitas organizações, incluindo a DeepMind, estão desenvolvendo modelos de IA de geração de vídeo, mas esses modelos são incapazes de criar efeitos sonoros que sincronizem com os vídeos que geram.
“Os modelos de geração de vídeo estão avançando a um ritmo incrível, mas muitos sistemas atuais só são capazes de produzir saída silenciosa”, escreve DeepMind. “Tecnologia V2A” [could] Torna-se uma abordagem promissora para dar vida aos filmes gerados. ”
A tecnologia V2A da DeepMind combina uma descrição da trilha sonora (por exemplo, “água-viva pulsante subaquática, vida marinha, oceano”) com o vídeo para combinar com o caráter e o tom do vídeo, com marca d'água deepfake da DeepMind. Crie música, efeitos sonoros e até diálogos. -Lute com a tecnologia SynthID. De acordo com DeepMind, o modelo de IA (modelo de difusão) por trás do V2A foi treinado em uma combinação de áudio, transcrições de interação e videoclipes.
“Ao treinar em vídeo, áudio e anotações adicionais, nossa tecnologia aprende a associar eventos de áudio específicos a diferentes cenas visuais, enquanto responde às informações fornecidas em anotações e transcrições”, disse DeepMind.
As mães responderam a perguntas sobre se algum dos dados de treinamento estava protegido por direitos autorais e se os autores dos dados foram informados sobre o trabalho da DeepMind. Entramos em contato com a DeepMind para esclarecimentos e atualizaremos esta postagem se recebermos uma resposta.
Ferramentas de geração de som alimentadas por IA não são novidade. Startup Stability AI acaba de lançá-lo na semana passada, e ElementalLabs também o lançou em maio. Também não é um modelo para criação de efeitos sonoros de vídeo. O Microsoft Project permite gerar vídeos de fala e canto a partir de imagens estáticas. Plataformas como Pika e GenerX também treinaram modelos para gravar vídeos e inferir que tipo de música e efeitos seriam apropriados para determinada cena.
Mas a DeepMind afirma que sua tecnologia V2A é única, pois entende os pixels brutos de um vídeo e pode sincronizar automaticamente (opcionalmente e sem explicação) o som gerado com o vídeo.
V2A não é perfeito e DeepMind admite isso. O modelo subjacente não foi treinado em muitos vídeos com artefatos e distorções, portanto, esses vídeos não produzirão áudio de qualidade particularmente alta. E geralmente o áudio gerado é maravilhoso Atraente; minha colega Natasha Lomas descreveu-o como “uma mistura de sons estereotipados”, e não posso dizer que discordo.
Por estas razões, e para evitar abusos, a DeepMind afirma que não lançará a tecnologia imediatamente, ou se o fará.
“Para garantir que nossa tecnologia V2A possa impactar positivamente a comunidade criativa, reunimos diversas perspectivas e insights dos principais criadores e cineastas e usamos esse feedback valioso para informar nosso progresso. “Estamos usando-o para apoiar nossos esforços de pesquisa e desenvolvimento”. DeepMind escreveu. “Nossa tecnologia V2A passará por avaliações e testes de segurança rigorosos antes de considerarmos abrir o acesso a um público mais amplo.”
A DeepMind considera sua tecnologia V2A uma ferramenta particularmente útil para arquivistas e aqueles que trabalham com imagens históricas. Mas a IA generativa neste sentido também ameaça transformar a indústria cinematográfica e televisiva. Serão necessárias proteções significativas aos trabalhadores para garantir que empregos, ou mesmo profissões inteiras, não sejam perdidos para ferramentas de comunicação social generativas.

