
Vá até lá, GPT-4. Outro modelo de IA tomou conta do seu espaço. Seu nome é Cláudio.
Esta semana, Claude 3 Opus AI LLM da Anthropic ficou em primeiro lugar no ranking do Chatbot Arena, site que testa e compara a eficácia de diferentes modelos de IA. Uma das variantes do GPT-4 foi empurrada para o segundo lugar na tabela de classificação do site, permitindo que Claude superasse o modelo de IA da OpenAI pela primeira vez.
Claude 3 Opus, disponível como site Claude 3 e API de desenvolvedor, é um dos três LLMs desenvolvidos recentemente pela Anthropic, com Sonnet e Haiku completando o trio. Comparando Opus e Sonnet, a Anthropic considera o Sonnet duas vezes mais rápido que os modelos anteriores Claude 2 e Claude 2.1. Segundo a empresa, o Opus oferece velocidades semelhantes aos modelos anteriores, mas com um nível de inteligência muito superior.
Artigo relacionado: Melhor chatbot AI: ChatGPT e suas alternativas
O Chatbot Arena, lançado em maio passado, foi fundado pela Large Scale Model Systems Organization (LMYSY Org), uma organização de pesquisa aberta fundada por estudantes e professores da Universidade da Califórnia, Berkeley. O objetivo desta arena é ajudar pesquisadores e especialistas em IA a entender como dois LLMs de IA diferentes se saem quando desafiados com o mesmo prompt.
O Chatbot Arena usa uma abordagem de crowdsourcing, para que qualquer pessoa possa experimentar. A página de bate-papo da Arena exibe dois dos 32 modelos diferentes de IA possíveis, incluindo Claude, GPT-3.5, GPT-4, Gemini do Google e Llama 2 do Meta. Aqui você será solicitado a inserir sua pergunta no seguinte prompt: fundo. No entanto, não sabemos qual LLM será selecionado de forma aleatória e anônima para atender a solicitação. Eles são simplesmente rotulados como Modelo A e Modelo B.
Além disso, o que significa GPT?Entenda GPT 3.5, GPT 4 e mais
Depois de ler as duas respostas dos dois LLMs, você será solicitado a avaliar qual resposta prefere. Você pode concordar com A ou B, avaliar ambos igualmente ou escolher uma classificação mais baixa para indicar que não gosta de um ou de outro. Os nomes dos dois LLMs serão revelados somente após você enviar sua avaliação.
A organização LMYSY conta os votos enviados pelos usuários do site e compila um total em uma tabela de classificação que mostra o desempenho de cada LLM. Nas últimas classificações, Claude 3 Opus recebeu 33.250 votos, seguido por GPT-4-1106-preview em segundo lugar com 54.141 votos.
Para avaliar os modelos de IA, a tabela de classificação utiliza o sistema de classificação Elo. Este é um método comumente usado para medir a eficácia de diferentes jogadores em jogos como o xadrez. As últimas tabelas de classificação usando o sistema Elo tiveram Claude 3 Opus classificado em 1253 e GPT-4-1106-preview classificado em 1251.
Outras variantes do LLM que tiveram bom desempenho em duelos recentes incluem GPT-4-0125-preview, Gemini Pro do Google, Claude 3 Sonnet, GPT-4-0314 e Claude 3 Haiku. Com o GPT-4 perdendo seu primeiro lugar e todos os três modelos Claude 3 mais recentes chegando ao top 10, a Anthropic está definitivamente ganhando mais força no campo da IA.

