Nós queremos ouvir de você! Participe da nossa breve pesquisa sobre IA para compartilhar seus insights sobre o estado atual da IA, como ela está sendo implementada e o que esperar do futuro. saber mais
Os agentes de IA estão se tornando uma nova direção de pesquisa promissora, com potencial para aplicações no mundo real. Esses agentes usam modelos subjacentes, como modelos de linguagem de grande porte (LLMs) e modelos de linguagem de visão (VLMs) para receber instruções em linguagem natural e perseguir objetivos complexos de forma autônoma ou semiautônoma. Os agentes de IA podem usar uma variedade de ferramentas, como navegadores, mecanismos de pesquisa e compiladores de código, para validar suas ações e raciocinar sobre seus objetivos.
No entanto, uma análise recente realizada por pesquisadores da Universidade de Princeton revelou que os atuais métodos de benchmarking e avaliação de agentes apresentam várias deficiências que dificultam sua utilidade em aplicações do mundo real.
As suas conclusões destacam que os agentes de benchmarking apresentam desafios únicos e que os agentes não podem ser avaliados da mesma forma que os modelos subjacentes de benchmarking.
Trade-off entre custo e precisão
Uma das principais questões que os investigadores destacam nos seus estudos é a falta de controlo de custos nas avaliações dos agentes. Os agentes de IA geralmente dependem de modelos de linguagem probabilística que podem produzir resultados diferentes quando recebem a mesma consulta várias vezes, o que pode ser muito mais caro de executar do que uma única chamada de modelo.
Contagem regressiva para a transformação VB 2024
Junte-se aos líderes empresariais em nosso principal evento de IA em São Francisco, de 9 a 11 de julho. Conecte-se com seus colegas, explore as oportunidades e desafios da IA generativa e aprenda como integrar aplicativos de IA ao seu setor. Registrar agora
Para melhorar a precisão, alguns sistemas de agentes geram múltiplas respostas e utilizam mecanismos como votação ou ferramentas de validação externa para selecionar a melhor resposta. Em alguns casos, a amostragem de centenas ou milhares de respostas pode melhorar a precisão do agente. Embora essa abordagem melhore o desempenho, ela tem um custo computacional significativo. Em ambientes de investigação, onde o objectivo é maximizar a precisão, o custo da inferência não é necessariamente um problema.
Porém, em aplicações reais, existe um limite de orçamento disponível para cada consulta, tornando importante a avaliação do agente de controle de custos. Não fazer isso pode encorajar os pesquisadores a desenvolver agentes muito caros simplesmente para chegar ao topo da tabela de classificação. Pesquisadores da Universidade de Princeton propõem visualizar os resultados da avaliação como curvas de Pareto de precisão e custo de inferência, e usar uma técnica para otimizar conjuntamente o agente para essas duas métricas.
Os pesquisadores avaliaram a precisão e as compensações de custos de diferentes técnicas de estímulo e padrões de agentes introduzidos em vários artigos.
“Mesmo para uma precisão aproximadamente semelhante, os custos podem diferir em quase duas ordens de grandeza”, escreveram os investigadores. “No entanto, o custo de funcionamento destes agentes não é a principal métrica relatada em nenhum dos artigos.”
Os pesquisadores afirmam que, ao otimizar ambas as métricas, eles podem criar “um agente que reduz custos enquanto mantém a precisão”. A otimização conjunta também permite que pesquisadores e desenvolvedores equilibrem os custos fixos e variáveis da operação de um agente. Por exemplo, você gasta mais tempo otimizando o design do seu agente, mas pode reduzir seus custos variáveis usando menos exemplos de aprendizagem no contexto para alertar seu agente.
Os pesquisadores testaram a otimização conjunta no HotpotQA, um benchmark popular para respostas a perguntas. Seus resultados mostram que uma formulação de otimização conjunta fornece uma maneira de equilibrar de maneira ideal a precisão e o custo de inferência.
“A avaliação de agentes úteis requer o controle de custos, mesmo que, em última análise, estejamos preocupados apenas em identificar projetos de agentes inovadores, sem nos preocuparmos com os custos”, escreveram os pesquisadores. “A precisão por si só não mede o progresso, pois melhorias podem ser feitas por métodos cientificamente sem sentido, como novas tentativas.”
Desenvolvimento de modelo e aplicações downstream
Outra questão destacada pelos investigadores é a diferença entre avaliar modelos para fins de investigação e desenvolver aplicações a jusante. A investigação centra-se frequentemente na precisão e ignora em grande parte os custos de inferência. No entanto, ao desenvolver aplicações do mundo real em agentes de IA, os custos de inferência desempenham um papel fundamental na decisão de quais modelos e técnicas utilizar.
Avaliar os custos de inferência dos agentes de IA é difícil. Por exemplo, diferentes fornecedores de modelos podem cobrar valores diferentes pelo mesmo modelo. Por outro lado, o custo das chamadas de API muda regularmente e pode variar dependendo das decisões do desenvolvedor. Por exemplo, algumas plataformas têm preços diferentes para chamadas de API em massa.
Para resolver esse problema, os pesquisadores criaram um site que ajusta as comparações de modelos com base no preço do token.
Também conduzimos um estudo de caso do NovelQA, uma referência para tarefas de resposta a perguntas em textos muito longos. Eles descobriram que os benchmarks destinados à avaliação do modelo podem ser enganosos quando usados para avaliação downstream. Por exemplo, no estudo original da NovelQA, a geração aumentada de pesquisa (RAG) parece ser muito pior do que modelos de contexto longo em cenários do mundo real. Suas descobertas mostram que, embora a precisão dos modelos RAG e de contexto longo seja aproximadamente equivalente, o modelo de contexto longo é 20 vezes mais caro.
O overfitting é um problema
Ao aprender novas tarefas, os modelos de aprendizado de máquina (ML) geralmente encontram atalhos que lhes permitem obter boas pontuações nos benchmarks. Um tipo comum de atalho é o “overfitting”. É aqui que o modelo encontra maneiras de trapacear nos testes de benchmark e fornecer resultados que não refletem o mundo real. Os pesquisadores descobriram que os benchmarks dos agentes tendem a ser pequenos, normalmente consistindo de apenas algumas centenas de amostras, tornando o overfitting um problema sério. Este problema é mais sério do que a contaminação de dados do modelo base de treinamento porque o conhecimento das amostras de teste pode ser programado diretamente no agente.
Para resolver esse problema, os pesquisadores criaram um conjunto de testes de validação que os desenvolvedores de benchmark podem usar para criar conjuntos de testes de validação que consistem em exemplos que não podem ser memorizados durante o treinamento e só podem ser resolvidos com a compreensão adequada da tarefa alvo. e mantido. Os pesquisadores analisaram 17 benchmarks e descobriram que muitos não possuíam conjuntos de dados de resistência adequados, permitindo que os agentes adotassem atalhos não intencionais.
“Surpreendentemente, descobrimos que muitos benchmarks de agentes não incluíam o conjunto de testes retido”, escreveram os pesquisadores. “Além de criar conjuntos de testes, os desenvolvedores de benchmarks devem considerar torná-los secretos para evitar a contaminação do LLM e o ajuste excessivo do agente.”
Ele também afirma que diferentes tipos de amostras de validação são necessários com base no nível desejado de generalidade das tarefas que o agente executa.
“Os desenvolvedores de benchmark devem fazer o melhor para garantir que os atalhos não sejam possíveis”, escreveram os pesquisadores. “Acreditamos que isso é responsabilidade do desenvolvedor do benchmark, não do desenvolvedor do agente. É muito melhor projetar um benchmark que não permita atalhos do que verificar cada agente para ver se o atalho está disponível.
Os pesquisadores testaram o WebArena, um benchmark que avalia o desempenho de agentes de IA na resolução de diversos problemas de sites. Eles descobriram vários atalhos no conjunto de dados de treinamento que permitiram ao agente se adaptar à tarefa de uma forma que seria facilmente interrompida com pequenas mudanças no mundo real. Por exemplo, um agente pode fazer suposições sobre a estrutura de um endereço web sem considerar que ele pode mudar no futuro ou pode não funcionar em outro site.
Os pesquisadores alertam que esses erros aumentam as estimativas de precisão e levam a um excesso de otimismo quanto às capacidades do agente.
Como os agentes de IA são um campo novo, a comunidade de investigação e desenvolvimento ainda tem muito que aprender sobre como testar os limites destes novos sistemas que poderão em breve tornar-se uma parte crítica das aplicações quotidianas.
“Os parâmetros de referência para os agentes de IA são novos e as melhores práticas ainda não foram estabelecidas, tornando difícil distinguir o progresso genuíno do exagero”, escreveram os investigadores. “Nossa afirmação é que os agentes são suficientemente diferentes dos modelos e precisamos repensar as práticas de benchmarking.”
Source link

