Pesquisadores apresentam IA open source treinada com trilhões de bases de DNA · NewsletterOficial

Pesquisadores apresentaram o Evo 2, um modelo de IA open source treinado com trilhões de bases de DNA provenientes de organismos dos três domínios da vida, incluindo bactérias, archaea e eucariotos. O sistema é capaz de identificar automaticamente elementos importantes do genoma, como genes, sequências regulatórias, regiões codificadoras de proteínas e até mutações que afetam proteínas.

Diferente do Evo original, que operava principalmente com genomas bacterianos, o Evo 2 foi projetado para lidar com genomas muito mais complexos, incluindo o genoma humano. O modelo foi treinado utilizando o conjunto de dados OpenGenome2, que reúne 8,8 trilhões de bases de DNA, e emprega uma arquitetura chamada StripedHyena 2.

Todo o projeto foi disponibilizado, incluindo os pesos do modelo, o código e o dataset, permitindo que outros pesquisadores explorem novas aplicações. Os responsáveis pelo trabalho afirmam que o uso do modelo pode levar a novas descobertas científicas, embora experimentos biológicos necessários para validar essas hipóteses possam levar meses ou até anos.