O Instituto Nacional de Padrões e Tecnologia (NIST), uma agência do Departamento de Comércio dos EUA que desenvolve e testa tecnologia para o governo, as empresas e o público em geral dos EUA, está investigando até que ponto os ataques maliciosos, especialmente “ataques de veneno, “Relançámos uma plataforma de testes concebida para medir a ” ” Dados de treinamento para modelos de IA – podem degradar o desempenho dos sistemas de IA.
Lançada pela primeira vez em 2022, a ferramenta modular, de código aberto e baseada na web chamada Dioptra (em homenagem a um instrumento clássico de pesquisa astronômica) ajuda as empresas a treinar modelos de IA e as pessoas que usam esses modelos. Riscos de IA. O NIST afirma que o Dioptra pode ser usado para benchmarking e pesquisa de modelos, além de fornecer uma plataforma comum para expor modelos a ameaças simuladas em um ambiente de “equipe vermelha”.
“Testar o impacto de ataques adversários em modelos de aprendizado de máquina é um dos objetivos da Dioptra”, disse o NIST em comunicado à imprensa. “Software de código aberto como o Generator, que está disponível para download gratuito, pode ajudar comunidades, incluindo agências governamentais e pequenas empresas, a realizar avaliações para avaliar as afirmações dos desenvolvedores de IA sobre o desempenho do sistema.”

Dioptra estreia com um documento do NIST e do recentemente criado AI Safety Institute do NIST que explica como mitigar alguns dos riscos da IA, incluindo como ela pode ser explorada para produzir pornografia não consensual. Isso segue o lançamento do Inspect da UK AI Safety Association, um conjunto de ferramentas que visa avaliar a funcionalidade e a segurança geral do modelo. Os EUA e o Reino Unido têm uma parceria contínua para co-desenvolver testes avançados de modelos de IA. O anúncio foi feito no UK AI Safety Summit, realizado em Bletchley Park em novembro do ano passado.
Dioptra também é um produto da Ordem Executiva (EO) sobre IA do presidente Joe Biden, que exige (entre outras coisas) suporte para testes de sistemas de IA pelo NIST. Neste contexto, o EO também estabeleceu padrões para a segurança e proteção da IA. Isso inclui a exigência de que as empresas que desenvolvem modelos (como a Apple) notifiquem o governo federal e compartilhem os resultados de quaisquer testes de segurança antes de implantar o modelo ao público.
Como escrevi antes, o benchmarking de IA é difícil. Especialmente porque os modelos de IA mais sofisticados de hoje são caixas negras, com a sua infraestrutura, dados de formação e outros detalhes importantes mantidos em segredo pelas empresas que os criam. Um relatório divulgado este mês pelo Ada Lovelace Institute, um instituto de pesquisa sem fins lucrativos com sede no Reino Unido que estuda IA, descobriu que a avaliação por si só não é suficiente para determinar o quão seguro um modelo de IA é realmente seguro. Uma razão para isso é que as políticas atuais permitem que os fornecedores de IA: Selecione seletivamente as avaliações que deseja realizar.
O NIST não afirma que o Dioptra possa eliminar completamente o risco do modelo. Mas a agência fazer Dioptra propõe que possa revelar os tipos de ataques que podem degradar o desempenho de um sistema de IA e quantificar o impacto no desempenho.
No entanto, uma limitação importante é que o Dioptra só pode ser usado imediatamente com modelos que podem ser baixados e usados localmente, como a família Llama em expansão da Meta. Modelos fechados por trás de APIs, como o GPT-4o da OpenAI, não estão disponíveis, pelo menos por enquanto.