O laboratório de inteligência artificial DeepMind do Google está trabalhando em uma nova tecnologia que pode gerar trilhas sonoras (incluindo diálogos) para acompanhar vídeos. O laboratório compartilhou o progresso em um projeto de tecnologia de vídeo-áudio (V2A) que pode ser combinado com outras ferramentas de criação de vídeo, como Google Veo e Sora da OpenAI. Em uma postagem no blog, a equipe do DeepMind explica que o sistema pode entender os pixels brutos e combinar essas informações com prompts de texto para criar efeitos sonoros para o que está acontecendo na tela. Observe que esta ferramenta também pode ser usada para criar trilhas sonoras para filmagens tradicionais, como filmes mudos e outros vídeos sem som.
Os pesquisadores da DeepMind treinaram a tecnologia usando anotações geradas por IA contendo descrições detalhadas de transcrições de vídeo, áudio, voz e conversas. Ao fazer isso, disseram eles, a tecnologia aprendeu a associar sons específicos a cenas visuais. peidar crise tecnológica A equipe da DeepMind não é a primeira a lançar uma ferramenta de IA que pode gerar efeitos sonoros. A Eleven Labs lançou recentemente uma ferramenta semelhante, mas não será a última. “Nosso trabalho se destaca das soluções existentes de vídeo para áudio porque pode compreender pixels brutos e a adição de prompts de texto é opcional”, escreveu a equipe.
As solicitações de texto são opcionais, mas podem ser usadas para tornar o produto final o mais preciso e realista possível. Por exemplo, você pode inserir um prompt positivo para direcionar a saída para a criação do som desejado ou um prompt negativo para desviar a saída do som indesejado. No exemplo abaixo, a equipe usou o seguinte prompt: “Filme, Suspense, Filme de Terror, Música, Tensão, Atmosfera, Passos no Concreto”.
Os pesquisadores reconhecem que ainda estão tentando resolver as limitações existentes da tecnologia V2A, como a redução na qualidade do áudio de saída que pode ocorrer se o vídeo fonte estiver distorcido. Também continuamos trabalhando para melhorar a sincronização labial dos diálogos gerados. A empresa também promete realizar “avaliações e testes de segurança rigorosos” antes de lançar a tecnologia para o mundo.
Este artigo contém links afiliados. Se você clicar nesses links e fizer uma compra, poderemos ganhar uma comissão.

