× fechar
Uma imagem estilizada dos resultados do agrupamento CLASSIX sobreposta a uma ilustração do coronavírus. Crédito: CDC: phil.cdc.gov/Details.aspx?pid=23312
Cientistas da Universidade de Manchester e da Universidade de Oxford desenvolveram uma estrutura de IA que pode identificar e rastrear variantes preocupantes do coronavírus e pode ser potencialmente útil para outras doenças infecciosas no futuro.
A estrutura combina técnicas de redução de dimensionalidade com um novo algoritmo de agrupamento explicável chamado CLASSIX, desenvolvido por matemáticos da Universidade de Manchester. Isto permite-nos identificar rapidamente grupos de genomas virais que podem representar riscos futuros a partir de grandes quantidades de dados.
Pesquisa publicada em periódicos PNASpoderia apoiar métodos tradicionais de rastreamento da evolução do vírus, como a análise filogenética, que atualmente requer extensa curadoria manual.
Roberto Kawanzi, pesquisador da Universidade de Manchester e principal autor do artigo, disse: “Desde o surgimento do COVID-19, houve múltiplas ondas de novas variantes, aumento da transmissibilidade e das respostas imunológicas”. no número de casos evitados e no número de casos que se tornam mais graves.” doente.
“Atualmente, os cientistas estão a intensificar os esforços para identificar novas variantes alarmantes, como a alfa, a delta e a micron, nas fases iniciais do seu aparecimento. Precisamos de encontrar formas de o fazer de forma rápida e eficiente. Esperamos poder ser mais proativos. “Respostas como o desenvolvimento de vacinas personalizadas poderiam eliminar variantes antes que se estabeleçam. ”
Como muitos outros vírus RNA, o COVID-19 evolui muito rapidamente devido à sua alta taxa de mutação e ao curto tempo de geração. Isto significa que é necessário muito esforço para identificar novas estirpes que provavelmente se tornarão um problema no futuro.
Atualmente, aproximadamente 16 milhões de sequências estão disponíveis no banco de dados GISAID (Global Initiative for All Influenza Data Sharing), que fornece acesso a dados genômicos de vírus influenza.
× fechar
Diagrama mostrando as etapas de um método proposto para identificar novas variantes da doença do coronavírus (COVID-19).Crédito: Universidade de Manchester
Mapear a evolução e a história de todos os genomas da COVID-19 a partir desses dados está atualmente consumindo muito tempo do computador e dos humanos.
O método descrito permite automatizar essas tarefas. Os pesquisadores processaram 5,7 milhões de sequências de alta cobertura em apenas um ou dois dias usando laptops modernos padrão. Isto não é possível com os métodos existentes e reduz os recursos necessários, deixando a identificação de estirpes patogénicas preocupantes nas mãos de mais investigadores.
Thomas House, professor de Ciências Matemáticas da Universidade de Manchester, disse: “Uma quantidade sem precedentes de dados genéticos foi gerada durante a pandemia e precisamos de métodos melhorados para analisá-los completamente. Os dados estão crescendo rapidamente. “Continuamos a fazê-lo, mas os benefícios de coletá-los não foram demonstrados.” Esses dados correm o risco de serem excluídos ou excluídos.
“Sabemos que os especialistas humanos têm tempo limitado, por isso a nossa abordagem não é substituir completamente o trabalho humano, mas sim colaborar com os humanos para realizar o trabalho mais rapidamente. Precisamos de ser capazes de fazer isso e libertar os nossos conhecimentos para fazer outras desenvolvimentos importantes.”
O método proposto funciona dividindo a sequência genética do coronavírus em pequenas “palavras” (chamadas 3-mers) que são representadas como números por contagem. Em seguida, ele usa técnicas de aprendizado de máquina para agrupar sequências semelhantes com base em padrões de palavras.
Stefan Güttel, professor de matemática aplicada na Universidade de Manchester, disse: “O algoritmo de cluster que desenvolvemos, CLASSIX, é muito menos intensivo em termos computacionais do que os métodos tradicionais e é totalmente explicável, o que significa que o texto e Ele fornece uma explicação visual.”
Roberto Cahuantzi acrescentou ainda: “Nossa análise serve como uma prova de conceito, permitindo que técnicas de aprendizado de máquina sejam usadas como uma ferramenta de alerta para a detecção precoce de grandes variantes emergentes, sem depender da necessidade de filogenética.
“Embora a filogenética continue sendo o ‘padrão ouro’ para a compreensão da ancestralidade viral, esses métodos de aprendizado de máquina podem processar ordens de magnitude mais sequências e com menor custo computacional do que os métodos filogenéticos atuais.”
Para maiores informações:
Cahuantzi, Roberto, Identificação não supervisionada de linhagens significativas de SARS-CoV-2 usando métodos escaláveis de aprendizado de máquina. Anais da Academia Nacional de Ciências (2024). DOI: 10.1073/pnas.2317284121. doi.org/10.1073/pnas.2317284121
Informações da revista:
Anais da Academia Nacional de Ciências