O Google está de olho no Sora da OpenAI com Veo. O modelo de IA pode criar videoclipes em 1080p com aproximadamente um minuto de duração quando recebe uma solicitação de texto.
Veo, anunciado terça-feira na conferência de desenvolvedores I/O 2024 do Google, pode capturar uma variedade de estilos visuais e cinematográficos, incluindo paisagens e tomadas com lapso de tempo, e editar e ajustar as imagens já produzidas.
“Para ver o que o Veo pode fazer, estamos analisando recursos como storyboards e geração de cenas mais longas”, disse Demis Hassabis, diretor do laboratório de pesquisa e desenvolvimento de IA do Google, DeepMind, aos repórteres durante uma mesa redonda virtual. ele disse. “Fizemos um progresso incrível com o vídeo.”

Veo se baseia no trabalho comercial preliminar do Google sobre geração de vídeo, que foi apresentado em abril, e aproveita a família Imagen 2 de modelos de geração de imagens da empresa para criar videoclipes em loop.
Mas, ao contrário das ferramentas baseadas no Imagen 2, que só podiam criar vídeos de alguns segundos de duração em baixa resolução, o Veo suporta os principais modelos de geração de vídeo da atualidade (Sora, bem como aqueles de startups como Pika, Runway e Ireverent) parecem ser competitivos. . Laboratório.
Durante o briefing, Douglas Eck, que lidera os esforços de pesquisa de mídia generativa da DeepMind, forneceu alguns exemplos selecionados do que a Veo pode fazer. Em particular, as imagens aéreas de praias movimentadas demonstraram os pontos fortes da Veo em relação aos modelos de vídeo concorrentes, disse ele.
“Representar os detalhes de todos os nadadores na praia tem se mostrado difícil tanto para os modelos de geração de imagens quanto para os de vídeo, uma vez que há tantos personagens em movimento”, disse ele. “Se você olhar de perto, as ondas parecem muito boas. E acho que o sentido imediato da palavra 'agitado' é capturado por todas as pessoas ao longo da costa vibrante e cheia de banhistas.”

Veo foi treinado com muita filmagem. É assim que os modelos generativos de IA geralmente funcionam. Quando o FRB toma algum tipo de dado como exemplo, o modelo pode detectar padrões nos dados e gerar novos dados (vídeo no caso do Veo).
De onde vieram as imagens para treinar Veo? Eck não disse exatamente, mas reconheceu que algumas podem ter sido obtidas no próprio YouTube do Google.
“Os modelos do Google podem ser treinados em alguns conteúdos do YouTube, mas sempre de acordo com acordos com os criadores do YouTube”, disse ele.
A parte “concordo” é Tecnicamente É verdade. Mas, dados os efeitos de rede do YouTube, os criadores não têm outra escolha senão seguir as regras do Google se quiserem atingir o público mais amplo possível.

Uma reportagem de abril do New York Times revelou que o Google expandiu seus termos de serviço no ano passado para permitir o uso de mais dados para treinar seus modelos de IA. Segundo os antigos termos de serviço, não estava claro se o Google poderia usar os dados do YouTube para criar produtos além de sua plataforma de vídeo. As novas condições não o fazem e as rédeas afrouxam consideravelmente.
O Google não é o único gigante da tecnologia que utiliza grandes quantidades de dados de usuários para treinar seus modelos internos. (Veja: Meta.) Mas o que certamente decepcionará alguns criadores é a afirmação de Eck de que o Google estabelece o “padrão ouro” quando se trata de ética.
“A solução para isso é [training data] “Encontraremos desafios reunindo todas as partes interessadas para considerar os próximos passos”, disse ele. “Até que tomemos estas medidas com as partes interessadas – a indústria cinematográfica, a indústria musical, os próprios artistas – não poderemos agir rapidamente.”
Mas o Google já disponibilizou o Veo para criadores selecionados, incluindo Donald Glover (também conhecido como Childish Gambino) e sua agência criativa, Gilga. (Assim como o OpenAI com Sora, o Google está posicionando o Veo como uma ferramenta para a criatividade.)
Eck observou que o Google fornece ferramentas para webmasters evitarem que os bots da empresa coletem dados de treinamento de seus sites. No entanto, esta configuração não se aplica ao YouTube. O Google também não fornece um mecanismo para os criadores removerem seu trabalho do conjunto de dados de treinamento após ele ter sido removido, ao contrário de alguns rivais.
Também perguntei ao Sr. Eck sobre refluxo. Backflow, no contexto da IA generativa, refere-se a um modelo que produz uma cópia espelhada de suas amostras de treinamento. Descobriu-se que ferramentas como Midjourney produzem imagens estáticas precisas de filmes como “Dune”, “Os Vingadores” e “Star Wars”, para os quais forneciam carimbos de data e hora, expondo os usuários a possíveis minas terrestres legais. estou preparando o chão. A OpenAI supostamente chegou ao ponto de bloquear marcas registradas e nomes de criadores enquanto Sora tentava evitar reivindicações de violação de direitos autorais.
Então, quais medidas o Google tomou para reduzir o risco de refluxo do Veo Eck disse que a equipe de pesquisa implementou filtros para conteúdo violento e explícito (ou seja, sem pornografia), não teve outra resposta a não ser afirmar que usa a tecnologia SynthID da DeepMind para isso. marque vídeos do Veo como gerados por IA.

“Para algo grande como o modelo Veo, nos concentramos em liberá-lo em etapas para um pequeno número de partes interessadas que possam trabalhar em estreita colaboração para entender as implicações do modelo e, em seguida, vamos distribuí-lo em um formato maior. grupo'', disse ele.
Eck tinha mais a compartilhar sobre os detalhes técnicos do modelo.
Eck descreveu o Veo como “bastante controlável” no sentido de que o modelo entende os movimentos da câmera e os efeitos visuais muito bem a partir dos prompts (descrições como “panorâmica”, “zoom” e “explosão” filho). E como Sora, Veo tem algum conhecimento de física, como mecânica de fluidos e gravidade. Isso contribui para o realismo do vídeo que você produz.
Veo também suporta edição de máscara para alterar áreas específicas de um vídeo, e modelos generativos como Stability AI's Stable Video permitem gerar vídeo a partir de imagens estáticas. Talvez o mais interessante seja que o Veo pode gerar vídeos mais longos (mais de um minuto) a partir de uma série de instruções que contam uma história.

Isso não significa que Veo seja perfeito. Refletindo as limitações da IA generativa atual, os objetos nos vídeos do Veo desaparecem e reaparecem sem muita explicação ou consistência. E o Veo muitas vezes erra na física. Por exemplo, os carros custam inexplicavelmente e inexplicavelmente cerca de 10 centavos.
Como tal, Veo permanecerá na lista de espera no futuro próximo no Google Labs, o portal de tecnologia experimental da empresa, dentro de um novo front-end para criação e edição de vídeo generativo de IA chamado VideoFX. O Google pretende trazer alguns dos recursos deste modelo para o YouTube Shorts e outros produtos.
“Este é um trabalho em andamento, muito experimental… há muito mais coisas sem resposta do que o que foi feito aqui”, disse Eck. “Mas acho que esta é a matéria-prima para fazer coisas realmente excelentes no campo do cinema.”

