A internet está repleta de vídeos educativos que podem ensinar aos espectadores curiosos tudo, desde como fazer a panqueca perfeita até a manobra de Heimlich que salva vidas.
No entanto, identificar exatamente quando e onde certas ações ocorrem em vídeos longos pode ser entediante. Para agilizar o processo, os cientistas estão tentando ensinar os computadores a realizar essa tarefa. O ideal é que o usuário simplesmente descreva a ação que procura e o modelo de IA pulará para esse local no vídeo.
No entanto, ensinar modelos de aprendizado de máquina para fazer isso normalmente requer grandes quantidades de dados de vídeo rotulados manualmente e caros.
Uma nova abordagem eficiente de pesquisadores do MIT e do MIT-IBM Watson AI Lab usa apenas vídeos e suas transcrições geradas automaticamente para treinar um modelo para executar esta tarefa, conhecida como aterramento espaço-temporal Masu.
Os pesquisadores ensinaram ao modelo como entender vídeos não rotulados de duas maneiras diferentes. Uma é observar os detalhes e compreender a localização dos objetos (informação espacial), e a outra é observar o quadro geral e compreender quando uma ação ocorrerá (informação temporal).
Em comparação com outras abordagens de IA, seu método identifica ações com mais precisão em vídeos longos contendo múltiplas atividades. Curiosamente, descobrimos que o treinamento de informações espaciais e temporais melhora simultaneamente a capacidade do modelo de identificar cada indivíduo.
Além de agilizar o processo de aprendizagem online e de formação virtual, esta tecnologia também pode ser útil em ambientes médicos, por exemplo, ao encontrar rapidamente momentos-chave em vídeos de procedimentos de diagnóstico.
“Desvendamos o desafio de tentar codificar informações espaciais e temporais ao mesmo tempo e, em vez disso, pensamos nisso como se dois especialistas estivessem trabalhando de forma independente. “Descobrimos que nosso modelo que combina esses dois ramos separados produz o melhor desempenho”, disse Brian Chen,. autor principal do artigo sobre a técnica.
Chen, que se formou na Universidade de Columbia em 2023 e conduziu esta pesquisa como estudante visitante no MIT-IBM Watson AI Lab, foi acompanhado no artigo por James Glass, membro, pesquisador sênior e diretor do MIT-IBM Watson AI Lab. . Eu sou. É membro do Grupo de Sistemas de Fala e Linguagem do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL). Hilde Kuehne é membro do MIT-IBM Watson AI Lab e também afiliada à Goethe University Frankfurt. Pesquisadores do MIT, Goethe University, MIT-IBM Watson AI Lab, Quality Match GmbH e outros apresentarão esta pesquisa e sediarão uma conferência sobre visão computacional e reconhecimento de padrões.
Aprendizagem global e local
Os pesquisadores normalmente ensinam modelos a realizar aterramento espaço-temporal usando vídeos nos quais humanos anotam os horários de início e término de uma tarefa específica.
Não só a geração desses dados é cara, mas também pode ser difícil para os humanos determinar exatamente o que rotular. Se a ação for “cozinhar panquecas”, a ação começa quando o chef começa a misturar a massa ou quando despeja a massa na panela?
“Desta vez, seu trabalho pode ser cozinhar, da próxima vez pode ser consertar carros. Existem muitos domínios diferentes para anotar. Mas se você puder aprender tudo sem rótulos, é mais geral. É uma ótima solução”, diz Chen.
Nesta abordagem, os pesquisadores usam vídeos instrutivos não rotulados e transcrições de texto de sites como o YouTube como dados de treinamento. Estes não requerem preparação especial.
Eles dividiram o processo de treinamento em duas partes. Primeiro, ensinamos o modelo de aprendizado de máquina a assistir o vídeo inteiro e entender o que acontece em momentos específicos. Essa informação de alto nível é chamada de representação global.
Na segunda, o modelo é treinado para focar em áreas específicas do vídeo onde a ação está ocorrendo. Por exemplo, em uma cozinha grande, o modelo pode precisar se concentrar apenas na colher de pau que o chef usa para misturar a massa das panquecas, e não em todo o balcão. Essas informações refinadas são chamadas de representação local.
Os pesquisadores incorporaram componentes adicionais à estrutura para reduzir as inconsistências que ocorrem entre a narração e o vídeo. Talvez o chef fale primeiro sobre cozinhar panquecas e depois execute a ação.
Para desenvolver uma solução mais realista, os pesquisadores se concentraram em vídeos sem cortes com vários minutos de duração. Em contraste, a maioria das técnicas de IA são treinadas usando clipes de alguns segundos que são cortados para mostrar apenas uma ação de alguém.
nova referência
Mas quando os investigadores tentaram avaliar a sua abordagem, não conseguiram encontrar uma referência eficaz para testar o seu modelo nestes vídeos longos e sem cortes, por isso criaram um.
Para construir o conjunto de dados de referência, os pesquisadores desenvolveram uma nova técnica de anotação adequada para identificar ações em várias etapas. Em vez de desenhar caixas em torno de objetos importantes, eles pediram aos usuários que marcassem interseções de objetos, como o ponto onde a lâmina de uma faca corta um tomate.
“Isso proporciona melhor definição, acelera o processo de anotação e reduz o esforço e o custo humano”, diz Chen.
Além disso, várias pessoas podem anotar pontos no mesmo vídeo para capturar melhor as ações que ocorrem ao longo do tempo, como o fluxo do leite sendo servido. Nem todos os anotadores marcam exatamente os mesmos pontos no fluxo de líquido.
Os pesquisadores testaram sua abordagem usando esse benchmark e descobriram que ela era capaz de identificar ações com mais precisão do que outras técnicas de IA.
Seu método também se destacou por focar na interação humano-objeto. Por exemplo, se a ação for “servir panquecas”, muitas outras abordagens poderão focar apenas nos objetos importantes, como uma pilha de panquecas sobre um balcão. Em vez disso, o método deles se concentra no momento em que o chef vira a panqueca em um prato.
Em seguida, os pesquisadores planejam aprimorar sua abordagem para que o modelo possa detectar automaticamente quando o texto e a narração não combinam e mudar o foco de uma modalidade para outra. Eles também querem estender a estrutura para dados de áudio, já que geralmente existe uma forte correlação entre as ações e os sons que os objetos emitem.
Esta pesquisa foi financiada em parte pelo MIT-IBM Watson AI Lab.

