Luma Labs, a empresa de inteligência artificial que anteriormente introduziu modelos 3D gerados pelo Genie, entrou no mundo do vídeo de IA com Dream Machine. Isto é impressionante.
A demanda para testar o Dream Machine sobrecarregou os servidores da Luma e um sistema de filas teve que ser implementado. Esperei a noite toda até que o prompt se transformasse em vídeo, mas o processo real de “sonhar” leva cerca de 2 minutos depois de chegar ao topo da fila.
Alguns dos vídeos compartilhados nas redes sociais por aqueles que tiveram acesso antecipado são impressionantes demais para serem reais e foram escolhidos a dedo de uma forma que mostra o que há de melhor nos modelos de vídeo de IA existentes. Mas experimentei e ficou muito bom. .
Não é do nível Sora e não parece tão bom quanto Kling, mas o que vi é um dos melhores modelos de vídeo de IA de seguimento rápido e compreensão de movimento de todos os tempos. De certa forma, é muito melhor que Sora, e qualquer pessoa pode usá-lo hoje.
Cada geração de vídeo tem aproximadamente 5 segundos de duração, o que é quase o dobro da duração de um vídeo Runway ou Pika Labs sem melhorias, e há evidências de alguns vídeos contendo várias tomadas.
Como você se sente ao usar o Dream Machine?
Fiz alguns clipes durante os testes. Um foi concluído em cerca de 3 horas e o restante durou quase uma noite. Alguns têm mistura e desfoque questionáveis, mas na maioria das vezes eles capturam o movimento melhor do que qualquer outro modelo que experimentei.
Eles nos mostraram como andar, dançar e correr. Em modelos mais antigos, as pessoas podem recuar ou dar um zoom em uma dançarina parada a partir de um prompt que exija esse tipo de movimento. Não é uma máquina de sonhos.
Dream Machine capturou com sucesso o conceito de um objeto em movimento sem especificar a área de movimento. Ele era especialmente bom em correr. No entanto, existem ajustes mínimos ou controles granulares além dos prompts.
Isso pode ser porque é um modelo novo, mas tudo é feito por meio de prompts e a IA se aprimora automaticamente usando seu próprio modelo de linguagem.
Essa também é a técnica usada pelo Ideograma e Leonardo para gerar imagens e ajuda a fornecer uma explicação mais descritiva do que você deseja ver.
Isso também pode ser uma característica de modelos de vídeo construídos com base em técnicas de transdifusão, em vez de difusão direta. A startup de vídeo AI baseada no Reino Unido, Haiper, também diz que seu modelo funciona melhor quando você permite que os prompts façam o trabalho, e Sora é apenas um prompt de texto simples com controles adicionais mínimos.
Teste a máquina dos sonhos

Eu criei uma série de instruções para testar o Dream Machine. Também testamos alguns deles em modelos de vídeo de IA existentes para ver como eles se comparam, mas nenhum deles atingiu o nível de precisão de movimento ou física realista.
Em alguns casos, bastava um simples prompt de texto para ativar a extensão. Para outros, dei-lhes longos avisos próprios e, em alguns casos, imagens que gerei no Midjourney.
1. Corra para tomar sorvete

Neste vídeo, criei um prompt descritivo de formato mais longo. Queria criar uma peça que parecesse ter sido tirada com um smartphone.
Prompt: “Uma criança animada está correndo em direção a um caminhão de sorvete estacionado em uma estrada ensolarada. A câmera segue de perto, capturando a nuca e os ombros da criança enquanto ela agita os braços com entusiasmo, e a cor captura um sorvete brilhante caminhão se aproximando. O vídeo inclui um leve salto para imitar o movimento natural de correr com um telefone celular.”
Dois vídeos foram criados. O primeiro fez parecer que o caminhão de sorvete estava prestes a atropelar a criança, e os movimentos dos braços da criança eram um pouco estranhos.
O segundo vídeo foi muito melhor. Certamente não era realista e havia um desfoque de movimento impressionante. O vídeo acima é da segunda tomada e também capta a ideia de um leve salto no movimento da câmera.
2. Entre no dinossauro

Desta vez, dei um aviso simples à Dream Machine, não reforcei o prompt e disse-lhe para apenas aceitar o que lhe foi dado. Na verdade, foram criados dois vídeos que fluíam um para o outro como se fossem a primeira e a segunda tomadas da cena.
Prompt: “Um homem descobre uma câmera mágica que dá vida a qualquer foto. Mas o caos se instala quando ele acidentalmente tira a foto de um dinossauro.”
Embora haja alguma distorção, especialmente na periferia, o movimento do dinossauro colidindo com a sala compreende a física do mundo real de uma forma interessante.
3. Ligue na rua

Em seguida, você receberá um prompt complexo novamente. Especificamente, quando Dream Machine precisa levar em conta movimentos leves, erráticos e cenas relativamente complexas.
Prompt: “Uma pessoa caminha por uma rua movimentada do centro da cidade ao anoitecer, segurando seu smartphone verticalmente. A câmera captura sua mão acenando enquanto ele caminha, dando-nos um vislumbre das vitrines das lojas, das pessoas passando e do brilho das luzes da rua. O vídeo inclui um leve tremor na mão para imitar o movimento natural de segurar um telefone.
Isso pode acontecer de duas maneiras. A IA pode capturar a visão de uma câmera na mão de uma pessoa ou capturar uma pessoa caminhando enquanto segura uma câmera (primeira e terceira pessoa). Eu escolhi a perspectiva de terceira pessoa.
Não foi perfeito, com algumas distorções nas franjas, mas foi melhor do que eu esperava considerando os elementos inconsistentes do prompt.
4. Dance no escuro

Em seguida, comecei com a imagem da silhueta de uma dançarina gerada em Midjourney. Tentei usar isso com Runway, Pika Labs e Stable Video Diffusion e, em cada caso, vejo movimento na cena, mas nenhum movimento do personagem.
Dica: “Crie uma captura cativante de uma mulher dançando em silhueta contra um fundo claro e contrastante. A câmera deve seguir os movimentos fluidos da dançarina e permanecer focada em sua silhueta durante toda a cena. Existe.”
Não foi perfeito. As pernas entortavam estranhamente ao girar e os braços pareciam unidos ao tecido, mas pelo menos o personagem se move. Esta é uma constante da Luma Dream Machine e funciona muito bem.
5. Gato da Lua

Um dos primeiros prompts que tento no novo modo de imagem ou vídeo de IA gerado é “Gato dançando na lua em um traje espacial”. É estranho o suficiente que não exista nenhum vídeo para extrair, e é complexo o suficiente para que o vídeo tenha dificuldades com o movimento.
Minha sugestão exata para Luma Dream Machine é “Um gato em um traje espacial dança com um cachorro na lua”. É isso, não refinei nem expliquei o tipo de movimento, deixei para a IA.
O que este prompt indica é que precisamos dar à IA algumas instruções sobre como interpretar o movimento. Não era ruim e era melhor que os modelos alternativos disponíveis atualmente, mas estava longe de ser perfeito.
6. Visita ao mercado

A seguir veio outra peça que começou com uma imagem do meio da jornada. Era uma foto de um animado mercado de alimentos na Europa. A sugestão original para Midjourney era “fotografia surreal e espontânea de um smartphone de um movimentado mercado de agricultores ao ar livre em uma pitoresca praça de uma cidade europeia”.
Para a Dream Machine do Luma Labs, simplesmente adicionei as instruções para “caminhar por um movimentado mercado de alimentos”. Não há outros comandos de movimento ou instruções de caracteres.
Gostaria que os movimentos dos personagens fossem mais detalhados. Embora tenha capturado muito bem o movimento da câmera, houve muita distorção e fusão entre as pessoas na cena. Como esta foi uma das minhas primeiras tentativas, não tentei uma técnica melhor para ativar o modelo.
7. Terminando a partida de xadrez

Finalmente, decidi lançar uma bola curva completa para Luma Dream Machine. Eu estava experimentando outro novo modelo de IA, Leonardo Phoenix. Isso promete um nível incrível de acompanhamento rápido. Então criamos um prompt de imagem de IA complexo.
Phoenix fez um bom trabalho, mas era apenas uma imagem, então decidi colocar exatamente o mesmo prompt no Dream Machine. “Um tabuleiro de xadrez surreal e desgastado flutuando em um vazio nebuloso, adornado com engrenagens e engrenagens de latão, contendo intrincadas peças de xadrez steampunk, incluindo peões robóticos movidos a vapor.”
Quase ignorando tudo, exceto o tabuleiro de xadrez, ele criou um vídeo surrealista em que peças de xadrez são atiradas para fora do tabuleiro como se estivessem derretendo. Existem elementos de surrealismo, por isso não tenho certeza se isso foi intencional ou se minha compreensão do movimento falhou. Parece legal, no entanto.
pensamentos finais
Fiz os seguintes cálculos. Visitei a Luma Dream Machine no sábado à noite, brinquei com ela por alguns dias e criei a geração 633. Desses 633, acredito que pelo menos 150 foram testes aleatórios por diversão. Então, estimo que demorou cerca de 500 horas… https://t.co/TpMCdDmlxy12 de junho de 2024
Luma Labs Dream Machine é um próximo passo impressionante na geração de vídeo de IA. Talvez eles tenham aproveitado sua experiência com modelagem 3D generativa para melhorar sua compreensão do movimento em vídeos, mas ainda parece que ainda estão a um passo do verdadeiro vídeo de IA.
Nos últimos dois anos, a geração de imagens por IA passou de representações bizarras e de baixa resolução de humanos com vários dedos e rostos que mais se parecem com um desenho de Edvard Munch do que com uma fotografia, para representações quase indistinguíveis da realidade.
O vídeo AI é ainda mais complexo. Além de recriar o realismo fotográfico, você precisa entender a física do mundo real e como ela afeta o movimento de cenas, pessoas, animais, veículos e objetos.
Por enquanto, acho que mesmo as melhores ferramentas de vídeo de IA devem ser usadas junto com a produção cinematográfica tradicional, em vez de substituí-la. Mas estamos nos aproximando da era prevista por Ashton Kutcher em que qualquer um poderá fazer seu próprio longa-metragem.
O Luma Labs criou uma das ferramentas de movimento de realidade mais próximas que já vi, mas ainda fica aquém do que preciso. Não acho que esse seja o nível do Sora, mas não posso compará-lo com os vídeos que fiz usando o Sora. Esses são apenas os que vi dos cineastas e do próprio OpenAI, e provavelmente foram retirados de centenas de falhas.
Abel Art, um ávido artista de IA que obteve acesso antecipado ao Dream Machine, criou alguns trabalhos impressionantes. Mas ele disse que centenas de gerações precisariam ser criadas para que um minuto de vídeo fosse consistente e descartasse clipes inutilizáveis de uma vez por todas.
Sua proporção é de cerca de 500 clipes por minuto de vídeo, cada clipe tendo cerca de 5 segundos de duração, e ele descarta 98% de suas tomadas para criar a cena perfeita.
Suspeito que Pika Labs e Runway tenham uma proporção mais alta, e relatos de pelo menos cineastas que usaram Sora sugerem que Sora tem uma taxa de queda semelhante.
Por enquanto, acho que mesmo as melhores ferramentas de vídeo de IA devem ser usadas junto com a produção cinematográfica tradicional, em vez de substituí-la. Mas estamos nos aproximando da era prevista por Ashton Kutcher em que qualquer um poderá fazer seu próprio longa-metragem.

