Claude 3 ultrapassa GPT-4 em um duelo de bots de IA.Veja como entrar em ação

Antrópico Claude 3 AI — Captura de tela de Lance Whitney/ZDNET

Vá até lá, GPT-4. Outro modelo de IA tomou conta do seu espaço. Seu nome é Cláudio.

Esta semana, Claude 3 Opus AI LLM da Anthropic ficou em primeiro lugar no ranking do Chatbot Arena, site que testa e compara a eficácia de diferentes modelos de IA. Uma das variantes do GPT-4 foi empurrada para o segundo lugar na tabela de classificação do site, permitindo que Claude superasse o modelo de IA da OpenAI pela primeira vez.

Tabela de classificação da Arena Chatbot — arena de chatbots

Claude 3 Opus, disponível como site Claude 3 e API de desenvolvedor, é um dos três LLMs desenvolvidos recentemente pela Anthropic, com Sonnet e Haiku completando o trio. Comparando Opus e Sonnet, a Anthropic considera o Sonnet duas vezes mais rápido que os modelos anteriores Claude 2 e Claude 2.1. Segundo a empresa, o Opus oferece velocidades semelhantes aos modelos anteriores, mas com um nível de inteligência muito superior.

Artigo relacionado: Melhor chatbot AI: ChatGPT e suas alternativas

O Chatbot Arena, lançado em maio passado, foi fundado pela Large Scale Model Systems Organization (LMYSY Org), uma organização de pesquisa aberta fundada por estudantes e professores da Universidade da Califórnia, Berkeley. O objetivo desta arena é ajudar pesquisadores e especialistas em IA a entender como dois LLMs de IA diferentes se saem quando desafiados com o mesmo prompt.

O Chatbot Arena usa uma abordagem de crowdsourcing, para que qualquer pessoa possa experimentar. A página de bate-papo da Arena exibe dois dos 32 modelos diferentes de IA possíveis, incluindo Claude, GPT-3.5, GPT-4, Gemini do Google e Llama 2 do Meta. Aqui você será solicitado a inserir sua pergunta no seguinte prompt: fundo. No entanto, não sabemos qual LLM será selecionado de forma aleatória e anônima para atender a solicitação. Eles são simplesmente rotulados como Modelo A e Modelo B.

Além disso, o que significa GPT?Entenda GPT 3.5, GPT 4 e mais

Depois de ler as duas respostas dos dois LLMs, você será solicitado a avaliar qual resposta prefere. Você pode concordar com A ou B, avaliar ambos igualmente ou escolher uma classificação mais baixa para indicar que não gosta de um ou de outro. Os nomes dos dois LLMs serão revelados somente após você enviar sua avaliação.

Por favor selecione sua resposta favorita — arena de chatbots

A organização LMYSY conta os votos enviados pelos usuários do site e compila um total em uma tabela de classificação que mostra o desempenho de cada LLM. Nas últimas classificações, Claude 3 Opus recebeu 33.250 votos, seguido por GPT-4-1106-preview em segundo lugar com 54.141 votos.

Para avaliar os modelos de IA, a tabela de classificação utiliza o sistema de classificação Elo. Este é um método comumente usado para medir a eficácia de diferentes jogadores em jogos como o xadrez. As últimas tabelas de classificação usando o sistema Elo tiveram Claude 3 Opus classificado em 1253 e GPT-4-1106-preview classificado em 1251.

Outras variantes do LLM que tiveram bom desempenho em duelos recentes incluem GPT-4-0125-preview, Gemini Pro do Google, Claude 3 Sonnet, GPT-4-0314 e Claude 3 Haiku. Com o GPT-4 perdendo seu primeiro lugar e todos os três modelos Claude 3 mais recentes chegando ao top 10, a Anthropic está definitivamente ganhando mais força no campo da IA.

Source link

What's Hot

Atum General apresenta equipe feminina de ciclismo

Matosinhos reforça segurança com 86 câmaras de videovigilância em 56 pontos do concelho

8º Moinho Cine Fest celebra liberdade em Custóias

Claude 3 ultrapassa GPT-4 em um duelo de bots de IA.Veja como entrar em ação

As ações da Microsoft caem mais de 6% após queda nos lucros devido à última decepção com IA

Airtable adquire startup de integração de talentos de IA Dopt

Os avatares de IA poderão em breve participar de reuniões em nosso nome, mas certamente parece uma ladeira escorregadia em direção a um futuro de IA que nenhum de nós deseja.

As ações da Microsoft caem mais de 6% após queda nos lucros devido à última decepção com IA

Airtable adquire startup de integração de talentos de IA Dopt

Os avatares de IA poderão em breve participar de reuniões em nosso nome, mas certamente parece uma ladeira escorregadia em direção a um futuro de IA que nenhum de nós deseja.

Microsoft pede novas leis contra golpes deepfake e imagens de abuso sexual de IA

Subscribe to Updates

What's Hot

Claude 3 ultrapassa GPT-4 em um duelo de bots de IA.Veja como entrar em ação

Related Posts