Os pesquisadores DeepMind do Google anunciaram um novo método para acelerar o treinamento de IA e reduzir significativamente os recursos computacionais e o tempo necessário para realizar o trabalho. De acordo com um artigo de investigação recente, esta nova abordagem a um processo tipicamente intensivo em energia poderia tornar o desenvolvimento da IA mais rápido e mais barato, o que poderia ser uma boa notícia para o ambiente.
“Nossa abordagem, aprendizagem contrastiva multimodal com seleção conjunta de exemplos (JEST), supera os modelos de última geração com até 13 vezes menos iterações e 10 vezes menos cálculos”, afirma o estudo.
A indústria de IA é conhecida pelo seu alto consumo de energia. Sistemas de IA em grande escala, como o ChatGPT, requerem um poder de processamento significativo, o que, por sua vez, requer grandes quantidades de energia e água para resfriar esses sistemas. Por exemplo, o consumo de água da Microsoft aumentou 34% entre 2021 e 2022 devido ao aumento da demanda por computação de IA, e o ChatGPT consome quase meio litro de água para cada 5 a 50 solicitações que eles consomem.
A Agência Internacional de Energia (AIE) comparou as demandas de energia da IA com o perfil energético muitas vezes significativo da indústria de mineração de criptografia e prevê que o consumo de energia dos data centers dobrará de 2022 a 2026.
No entanto, abordagens como o JEST podem fornecer uma solução. Ao otimizar a seleção de dados para treinamento de IA, o JEST pode reduzir significativamente o número de iterações e o poder computacional necessário, reduzindo potencialmente o consumo geral de energia, disse o Google. Esta abordagem é consistente com os esforços para melhorar a eficiência da tecnologia de IA e reduzir o seu impacto ambiental.
Se esta técnica se mostrar eficaz em escala, os treinadores de IA necessitarão apenas de uma fração da energia usada para treinar modelos. Isso significa que você pode criar ferramentas de IA mais poderosas usando os mesmos recursos que usa atualmente ou desenvolver novos modelos usando menos recursos.
Como funciona o JEST
O JEST funciona selecionando lotes complementares de dados para maximizar o potencial de aprendizagem do modelo de IA. Ao contrário dos métodos tradicionais que selecionam exemplos individuais, este algoritmo considera a composição de todo o conjunto.
Por exemplo, imagine que você está aprendendo vários idiomas. Em vez de aprender inglês, alemão e norueguês separadamente por ordem de dificuldade, você pode achar mais eficaz estudá-los juntos, com o conhecimento de um apoiando o aprendizado do outro.
O Google adotou uma abordagem semelhante com sucesso.
“Demonstramos que a seleção conjunta de lotes de dados é mais eficaz para a aprendizagem do que a seleção de exemplos individualmente”, afirmaram os pesquisadores em seu artigo.
Para fazer isso, os pesquisadores do Google usaram “aprendizado contrastivo multimodal”, onde o processo JEST identifica dependências entre pontos de dados. Este método aumenta a velocidade e a eficiência do treinamento de IA e também reduz significativamente o poder computacional necessário.
A chave para esta abordagem foi começar com um modelo de referência pré-treinado para controlar o processo de seleção de dados, observou o Google. Essa técnica permitiu que o modelo se concentrasse em conjuntos de dados cuidadosamente selecionados de alta qualidade, otimizando ainda mais a eficiência do treinamento.
“A qualidade de um lote é função da qualidade total dos dados considerados individualmente, bem como de sua composição”, explica o artigo.
Os experimentos neste estudo mostraram melhorias sólidas de desempenho em uma variedade de benchmarks. Por exemplo, descobrimos que o treinamento em um conjunto de dados WebLI comum usando JEST melhorou significativamente a velocidade de aprendizado e a eficiência de recursos.
Os pesquisadores também descobriram que o algoritmo descobre rapidamente sublotes altamente aprendíveis, acelerando o processo de treinamento ao focar em partes específicas dos dados que “combinam” entre si. Essa técnica, chamada de “inicialização de qualidade de dados”, enfatiza a qualidade em vez da quantidade e provou ser adequada para treinamento em IA.
“Modelos de referência treinados em conjuntos de dados pequenos e cuidadosamente selecionados podem orientar efetivamente a curadoria de conjuntos de dados muito maiores e modelos de treinamento que superam significativamente a qualidade do modelo de referência para muitas tarefas posteriores”, afirma o artigo.
Editado por Ryan Ozawa.

