
Uma visão geral do processo de benchmarking proposto pela Amazon para implementações RAG de IA generativa.
AmazonAWS
Muitos dizem que este ano deverá ser o ano em que a inteligência artificial generativa (GenAI) realmente decolará nas empresas. Uma maneira de isso acontecer é por meio da geração de aumento de pesquisa (RAG). É uma forma de conectar modelos de linguagem em larga escala da IA a bancos de dados contendo conteúdo específico de domínio, como arquivos de empresas.
No entanto, RAG é uma tecnologia emergente com armadilhas.
Também: Abrindo espaço para RAG: como o equilíbrio de poder na geração AI está mudando
É por isso que os pesquisadores da AWS da Amazon respondem em um novo artigo para estabelecer uma série de benchmarks que testam especificamente quão bem o RAG lida com questões sobre conteúdo específico de domínio.
“Nosso método é uma estratégia automatizada, econômica, interpretável e robusta para selecionar componentes ideais para sistemas RAG”, escreveram o autor principal Gauthier Guinet e sua equipe em uma declaração “Avaliação automática de modelos de linguagem de aumento de pesquisa”. Gerando um exame específico” será postado no servidor de pré-impressão arXiv.
O artigo será apresentado na 41ª Conferência Internacional sobre Aprendizado de Máquina, uma conferência sobre IA que será realizada em Viena, de 21 a 27 de julho.
O problema fundamental é que embora existam muitos parâmetros de referência para comparar as capacidades de diferentes modelos de linguagem de grande escala (LLMs) num grande número de tarefas, especialmente no campo dos RAGs, é difícil medir. -avaliação específica'' de muitas qualidades importantes, incluindo a “factualidade''.
Os autores acreditam que o método automatizado cria alguma uniformidade. “Ao gerar automaticamente testes de múltipla escolha adaptados ao corpus de documentos associados a cada tarefa, nossa abordagem permite pontuação padronizada, escalonável e interpretável de vários sistemas RAG.”
Para realizar esta tarefa, os autores recorrem a materiais de quatro disciplinas para criar pares de perguntas e respostas. Documentação de solução de problemas da AWS sobre tópicos de DevOps. Resumos de artigos científicos do servidor de pré-impressão arXiv. Perguntas sobre StackExchange. e registros da Comissão de Valores Mobiliários dos EUA, o principal regulador para empresas de capital aberto.
Também: Conectar IA generativa a dados médicos melhora a utilidade do médico
Em seguida, elabore um teste de múltipla escolha para os LLMs e avalie o quão próximo cada LLM está da resposta correta. Eles submeteram duas famílias de LLMs de código aberto a esses exames: Mistral, da empresa francesa de mesmo nome, e Llama, da Meta Properties.
Eles testam o modelo em três cenários. O primeiro é um cenário de “livro fechado”. Nesse cenário, o LLM não tem acesso aos dados RAG e deve contar com “parâmetros” ou “pesos” neurais pré-treinados para encontrar a resposta. O segundo é chamado de formato “Oracle” do RAG, que dá ao LLM acesso aos documentos exatos usados para gerar as questões, conhecido como ground Truth.
A terceira forma é a “pesquisa clássica”. Nesse formato, o modelo deve usar vários algoritmos para pesquisar todo o conjunto de dados em busca do contexto da questão. Várias fórmulas RAG populares são usadas, incluindo uma introduzida em 2019 por acadêmicos da Universidade de Tel Aviv e do Instituto Allen de Inteligência Artificial MultiQA. A outra é uma abordagem de recuperação de informações mais antiga, mas muito popular, chamada BM25.
Artigo relacionado: Microsoft Azure adquire produto RAG “Modelos como serviço” aprimorado para IA gerada por empresas
Em seguida, execute os testes e registre os resultados. Os resultados são complexos o suficiente para preencher um grande número de gráficos sobre os pontos fortes e fracos relativos do LLM e de várias abordagens RAG. Os autores também realizaram uma meta-análise das questões do exame para avaliar sua utilidade com base na Taxonomia de Bloom, bastante conhecida na área educacional.
Mais importante do que os dados dos ensaios é a vasta gama de conclusões que podem ser aplicadas aos RAG, independentemente dos detalhes da implementação.
Uma descoberta ampla é que um algoritmo RAG melhor pode melhorar o LLM, em vez de torná-lo maior, por exemplo.
“A escolha correta do método de aquisição geralmente melhora o desempenho em vez de simplesmente escolher um LLM maior”, escrevem eles.
Isto é importante dadas as preocupações sobre o rápido aumento da intensidade de recursos da GenAI. Se você puder fazer mais por menos, é uma opção que vale a pena considerar. Também sugere que o conhecimento atual da IA de que o dimensionamento é sempre melhor não é inteiramente verdadeiro quando se trata de resolver problemas concretos.
Artigo relacionado: IA generativa é um novo vetor de ataque que coloca as empresas em risco, afirma CrowdStrike CTO
Igualmente importante, os autores descobriram que se o algoritmo RAG não se comportar corretamente, o desempenho do LLM pode ser degradado em comparação com uma versão plain vanilla de livro fechado sem RAG.
“O mau alinhamento dos componentes do recuperador pode resultar em menor precisão do que nenhuma recuperação”, dizem Gine e equipe.

