Close Menu
  • Home
  • 24Hours News
  • Ai
  • Backlinks
  • Gadgets
  • Porto
  • Matosinhos
  • Tech

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

What's Hot

Matosinhos acende as luzes de Natal esta sexta-feira

November 25, 2025

Governo propõe aumentar vagas no Ensino Superior

November 25, 2025

Caminhões deixam de pagar pedágio no CREP em 2026

November 25, 2025
Facebook X (Twitter) Instagram
  • Home
  • About Matosinhos24h.com
  • Advertise with Us
  • Contact us
  • DMCA Policy
  • Policy
  • Terms of Use
Facebook X (Twitter) Instagram
MatoSinhos24hMatoSinhos24h
  • Home
  • 24Hours News
  • Ai
  • Backlinks
  • Gadgets
  • Porto
  • Matosinhos
  • Tech
MatoSinhos24hMatoSinhos24h
Home » Amazon propõe novo benchmark de IA para medir RAG
Ai

Amazon propõe novo benchmark de IA para medir RAG

FranciscoBy FranciscoJuly 1, 2024No Comments5 Mins Read
Facebook Twitter Pinterest LinkedIn Tumblr Email
Share
Facebook Twitter LinkedIn Pinterest Email


amazon-aws-rag-benchmarks-crop-for-twitter-new

Uma visão geral do processo de benchmarking proposto pela Amazon para implementações RAG de IA generativa.

AmazonAWS

Muitos dizem que este ano deverá ser o ano em que a inteligência artificial generativa (GenAI) realmente decolará nas empresas. Uma maneira de isso acontecer é por meio da geração de aumento de pesquisa (RAG). É uma forma de conectar modelos de linguagem em larga escala da IA ​​a bancos de dados contendo conteúdo específico de domínio, como arquivos de empresas.

No entanto, RAG é uma tecnologia emergente com armadilhas.

Também: Abrindo espaço para RAG: como o equilíbrio de poder na geração AI está mudando

É por isso que os pesquisadores da AWS da Amazon respondem em um novo artigo para estabelecer uma série de benchmarks que testam especificamente quão bem o RAG lida com questões sobre conteúdo específico de domínio.

“Nosso método é uma estratégia automatizada, econômica, interpretável e robusta para selecionar componentes ideais para sistemas RAG”, escreveram o autor principal Gauthier Guinet e sua equipe em uma declaração “Avaliação automática de modelos de linguagem de aumento de pesquisa”. Gerando um exame específico” será postado no servidor de pré-impressão arXiv.

O artigo será apresentado na 41ª Conferência Internacional sobre Aprendizado de Máquina, uma conferência sobre IA que será realizada em Viena, de 21 a 27 de julho.

O problema fundamental é que embora existam muitos parâmetros de referência para comparar as capacidades de diferentes modelos de linguagem de grande escala (LLMs) num grande número de tarefas, especialmente no campo dos RAGs, é difícil medir. -avaliação específica'' de muitas qualidades importantes, incluindo a “factualidade''.

Os autores acreditam que o método automatizado cria alguma uniformidade. “Ao gerar automaticamente testes de múltipla escolha adaptados ao corpus de documentos associados a cada tarefa, nossa abordagem permite pontuação padronizada, escalonável e interpretável de vários sistemas RAG.”

Para realizar esta tarefa, os autores recorrem a materiais de quatro disciplinas para criar pares de perguntas e respostas. Documentação de solução de problemas da AWS sobre tópicos de DevOps. Resumos de artigos científicos do servidor de pré-impressão arXiv. Perguntas sobre StackExchange. e registros da Comissão de Valores Mobiliários dos EUA, o principal regulador para empresas de capital aberto.

Também: Conectar IA generativa a dados médicos melhora a utilidade do médico

Em seguida, elabore um teste de múltipla escolha para os LLMs e avalie o quão próximo cada LLM está da resposta correta. Eles submeteram duas famílias de LLMs de código aberto a esses exames: Mistral, da empresa francesa de mesmo nome, e Llama, da Meta Properties.

Eles testam o modelo em três cenários. O primeiro é um cenário de “livro fechado”. Nesse cenário, o LLM não tem acesso aos dados RAG e deve contar com “parâmetros” ou “pesos” neurais pré-treinados para encontrar a resposta. O segundo é chamado de formato “Oracle” do RAG, que dá ao LLM acesso aos documentos exatos usados ​​para gerar as questões, conhecido como ground Truth.

A terceira forma é a “pesquisa clássica”. Nesse formato, o modelo deve usar vários algoritmos para pesquisar todo o conjunto de dados em busca do contexto da questão. Várias fórmulas RAG populares são usadas, incluindo uma introduzida em 2019 por acadêmicos da Universidade de Tel Aviv e do Instituto Allen de Inteligência Artificial MultiQA. A outra é uma abordagem de recuperação de informações mais antiga, mas muito popular, chamada BM25.

Artigo relacionado: Microsoft Azure adquire produto RAG “Modelos como serviço” aprimorado para IA gerada por empresas

Em seguida, execute os testes e registre os resultados. Os resultados são complexos o suficiente para preencher um grande número de gráficos sobre os pontos fortes e fracos relativos do LLM e de várias abordagens RAG. Os autores também realizaram uma meta-análise das questões do exame para avaliar sua utilidade com base na Taxonomia de Bloom, bastante conhecida na área educacional.

Mais importante do que os dados dos ensaios é a vasta gama de conclusões que podem ser aplicadas aos RAG, independentemente dos detalhes da implementação.

Uma descoberta ampla é que um algoritmo RAG melhor pode melhorar o LLM, em vez de torná-lo maior, por exemplo.

“A escolha correta do método de aquisição geralmente melhora o desempenho em vez de simplesmente escolher um LLM maior”, escrevem eles.

Isto é importante dadas as preocupações sobre o rápido aumento da intensidade de recursos da GenAI. Se você puder fazer mais por menos, é uma opção que vale a pena considerar. Também sugere que o conhecimento atual da IA ​​de que o dimensionamento é sempre melhor não é inteiramente verdadeiro quando se trata de resolver problemas concretos.

Artigo relacionado: IA generativa é um novo vetor de ataque que coloca as empresas em risco, afirma CrowdStrike CTO

Igualmente importante, os autores descobriram que se o algoritmo RAG não se comportar corretamente, o desempenho do LLM pode ser degradado em comparação com uma versão plain vanilla de livro fechado sem RAG.

“O mau alinhamento dos componentes do recuperador pode resultar em menor precisão do que nenhuma recuperação”, dizem Gine e equipe.





Source link

Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
Francisco
  • Website

Related Posts

As ações da Microsoft caem mais de 6% após queda nos lucros devido à última decepção com IA

July 30, 2024

Airtable adquire startup de integração de talentos de IA Dopt

July 30, 2024

Os avatares de IA poderão em breve participar de reuniões em nosso nome, mas certamente parece uma ladeira escorregadia em direção a um futuro de IA que nenhum de nós deseja.

July 30, 2024
Add A Comment
Leave A Reply Cancel Reply

Editors Picks

As ações da Microsoft caem mais de 6% após queda nos lucros devido à última decepção com IA

July 30, 2024

Airtable adquire startup de integração de talentos de IA Dopt

July 30, 2024

Os avatares de IA poderão em breve participar de reuniões em nosso nome, mas certamente parece uma ladeira escorregadia em direção a um futuro de IA que nenhum de nós deseja.

July 30, 2024

Microsoft pede novas leis contra golpes deepfake e imagens de abuso sexual de IA

July 30, 2024
Top Reviews
MatoSinhos24h
Facebook X (Twitter) Instagram Pinterest Vimeo YouTube
  • Home
  • About Matosinhos24h.com
  • Advertise with Us
  • Contact us
  • DMCA Policy
  • Policy
  • Terms of Use
© 2025 matosinhos24h. Designed by matosinhos24h.

Type above and press Enter to search. Press Esc to cancel.