
Créditos da imagem: Andrei Popov/Getty Images
Como escrevemos recentemente, os modelos generativos de IA estão a ser cada vez mais introduzidos em ambientes de saúde e, em alguns casos, talvez prematuramente. Os primeiros usuários acreditam que podem desbloquear insights que, de outra forma, seriam perdidos e, ao mesmo tempo, obter maior eficiência. No entanto, os críticos dizem que estes modelos são falhos e tendenciosos e podem levar a piores resultados de saúde.
Mas existe uma maneira de saber quantitativamente o quão útil ou prejudicial um modelo é quando encarregado de uma tarefa como resumir registros de pacientes ou responder a perguntas relacionadas à saúde?
A startup de IA Hugging Face propõe uma solução em um teste de benchmark recém-lançado chamado Open Medical-LLM. Criado em colaboração com pesquisadores da organização sem fins lucrativos Open Life Science AI e do Grupo de Processamento de Linguagem Natural da Universidade de Edimburgo, o Open Medical-LLM visa padronizar a avaliação de desempenho de modelos generativos de IA em uma variedade de tarefas relacionadas à saúde.
Open Medical-LLM é Do começo Embora seja uma referência em si, é antes uma concatenação de conjuntos de testes existentes (MedQA, PubMedQA, MedMCQA, etc.) que incorpora conhecimentos médicos gerais e áreas relacionadas, como anatomia, farmacologia, genética e prática clínica. modelos. Este benchmark inclui questões abertas e de múltipla escolha que exigem raciocínio e compreensão médica, extraídas de fontes como os exames de licenciamento médico dos EUA e da Índia e os bancos de perguntas para exames de biologia universitária contidos.
“[Open Medical-LLM] Isso permitirá que pesquisadores e profissionais de saúde identifiquem os pontos fortes e fracos de diferentes abordagens, impulsionem mais progressos na área e, em última análise, contribuam para melhores cuidados e resultados aos pacientes.”・O Sr. Faith escreveu em uma postagem no blog.

Créditos da imagem: abraço cara
Hug Face descreve o benchmark como uma “avaliação robusta” de modelos generativos de IA na área da saúde. No entanto, alguns especialistas médicos alertaram nas redes sociais que investir demasiadas ações no Open Medical-LLM poderia levar a uma implementação mal informada.
Em relação a X, Liam McCoy, residente em neurologia da Universidade de Alberta, destacou que existe uma lacuna entre o “ambiente artificial” em que as questões médicas são respondidas e a área médica. o actual A prática clínica pode ser muito extensa.
A cientista pesquisadora da Hugface, Clementine Fourier, coautora desta postagem no blog, concordou.
“Essas tabelas de classificação devem ser usadas apenas como uma primeira aproximação. [generative AI model] Explorar casos de uso específicos sempre requer estágios mais profundos de testes para examinar as limitações do modelo e sua relevância para situações do mundo real”, disse Fourier em um post no X. [models] Não deve ser utilizado isoladamente pelos pacientes, mas deve ser treinado para ser uma ferramenta de apoio aos médicos. ”
Isto é uma reminiscência da nossa experiência há alguns anos, quando tentámos introduzir uma ferramenta de rastreio de IA para retinopatia diabética no sistema de saúde tailandês.
Conforme relatado por Devin em 2020, o Google desenvolveu um sistema de aprendizagem profunda que examina imagens dos olhos em busca de evidências de retinopatia, uma das principais causas de perda de visão. No entanto, apesar da sua elevada precisão teórica, esta ferramenta revelou-se impraticável em testes no mundo real, com resultados inconsistentes e uma falta geral de alinhamento com a prática de campo. Ambos os enfermeiros ficaram incomodados.
Dos 139 dispositivos médicos relacionados com IA aprovados até agora pela Food and Drug Administration dos EUA, nenhum utiliza IA generativa. Testar como o desempenho das ferramentas de IA geradas em laboratório se traduz em hospitais e clínicas ambulatoriais é extremamente difícil. Além disso, e talvez mais importante, teste a tendência dos resultados ao longo do tempo.
Isso não quer dizer que o Open Medical-LLM não seja útil ou benéfico. A tabela de classificação de resultados serve pelo menos como um lembrete de como você se saiu. incompleto O modelo responde a questões básicas de saúde. Mas o Open Medical-LLM, e nenhuma outra referência nesse sentido, não substitui testes cuidadosamente elaborados no mundo real.

