A Anthropic está lançando um programa para financiar o desenvolvimento de novos tipos de benchmarks que possam avaliar o desempenho e o impacto dos modelos de IA, incluindo modelos generativos como o Claude da empresa.
O programa da Antrópico, anunciado na segunda-feira, concederá subsídios a organizações terceirizadas que possam “medir efetivamente as capacidades avançadas dos modelos de IA”, como disse a empresa em uma postagem no blog. Os candidatos interessados podem enviar inscrição e receber avaliações periódicas.
“Nossos investimentos nessas avaliações visam melhorar todo o campo da segurança da IA e fornecer ferramentas valiosas que beneficiarão todo o ecossistema”, escreveu a Anthropic em seu blog oficial. “O desenvolvimento de avaliações relacionadas com a segurança de alta qualidade continua a ser um desafio, com a procura a superar a oferta.”
Como destacamos anteriormente, a IA tem um problema de benchmarking. Os benchmarks de IA mais citados atualmente não fazem o suficiente para capturar como uma pessoa comum realmente usa o sistema que está testando. Há também dúvidas sobre se alguns benchmarks, especialmente aqueles lançados antes do surgimento da IA generativa moderna, medem o que deveriam medir, dada a sua idade.
As soluções de alto nível e mais difíceis do que você imagina da Anthropic criam benchmarks desafiadores com foco na segurança da IA e no impacto social por meio de novas ferramentas, infraestrutura e metodologias.
A empresa testa especificamente para avaliar a capacidade do modelo de executar tarefas como realizar ataques cibernéticos, “endurecer” armas de destruição em massa (por exemplo, armas nucleares) e manipular e enganar pessoas (por exemplo, através de deepfakes e desinformação). para. Em relação aos riscos de IA relacionados à segurança e defesa nacional, a Anthropic diz que está trabalhando no desenvolvimento de uma espécie de “sistema de alerta precoce” para identificar e avaliar riscos, mas como seria esse sistema? pode incluir.
A Antrópico também planeja apoiar pesquisas de referência e tarefas “ponta a ponta” nas quais o novo programa explora o potencial da IA para apoiar a pesquisa científica, falar em vários idiomas e aliviar a toxicidade do preconceito profundamente enraizado e da autocensura. afirma isso. .
Para conseguir tudo isso, a Anthropic prevê uma nova plataforma onde especialistas no assunto possam desenvolver suas próprias avaliações e testes em larga escala de modelos envolvendo “milhares” de usuários. A empresa disse que está contratando um coordenador em tempo integral para o programa e pode adquirir ou expandir projetos que acredita terem potencial de escala.
“Oferecemos uma ampla gama de opções de financiamento adaptadas às necessidades e ao estágio de cada projeto”, escreveu a Anthropic no post, mas um porta-voz da Anthropic recusou mais detalhes sobre essas opções. “As equipes terão a oportunidade de interagir diretamente com os especialistas de domínio da Anthropic da equipe Frontier Red, Tweak, Reliability and Safety e outras equipes relacionadas.”
Os esforços da Antrópico para apoiar novos benchmarks de IA são louváveis. Naturalmente, isto pressupõe que existam recursos financeiros e humanos suficientes. Mas dadas as ambições comerciais da empresa na corrida pela IA, pode ser difícil confiar totalmente nela.
Em uma postagem no blog, a Anthropic foi bastante transparente sobre o fato de que deseja que as avaliações específicas que financia estejam alinhadas com as classificações de segurança da IA. que Desenvolvido (com contribuições de terceiros, como a organização sem fins lucrativos de pesquisa em IA METR). Está dentro das prerrogativas da empresa. Mas os candidatos ao programa também podem ser forçados a aceitar definições de IA “segura” ou “perigosa” com as quais podem não concordar totalmente.
Alguns membros da comunidade de IA também podem discordar da referência da Antrópica aos riscos “catastróficos” e “enganosos” da IA, como o risco de armas nucleares. Muitos especialistas dizem que há poucas evidências que sugiram que a IA em breve, ou em breve, ganhará a capacidade de enganar os humanos destruidores do mundo. Os especialistas acrescentaram que as alegações de que a “superinteligência” é iminente apenas desviam a atenção das questões regulatórias urgentes da IA da época, como a tendência da IA para alucinar.
A Anthropic escreveu em seu post que espera que seu programa sirva como um “catalisador para o progresso em direção a um futuro onde avaliações abrangentes de IA sejam o padrão da indústria”. Esta é uma missão que repercute em muitos esforços abertos e não corporativos para criar melhores benchmarks de IA. Mas resta saber se estes esforços acabarão por conduzir a uma vontade de trabalhar com fornecedores de IA que sejam leais aos acionistas.
