O novo alfagenoma de DeepMind Ai aborda a ‘matéria escura’ em nosso DNA


Os pesquisadores alimentam vastas quantidades de dados genômicos em sistemas de aprendizado de máquina para treiná-los para prever o papel das sequências não codificadoras.Crédito: Jusun/Istock via Getty
Quase 25 anos depois que os cientistas concluíram um projeto de sequência do genoma humano, muitas de suas cartas de 3,1 bilhões continuam sendo um quebra -cabeça. Os 98% do genoma que não são feitos de genes codificadores de proteínas-mas que podem influenciar sua atividade-é especialmente irritante.
Um modelo de inteligência artificial (IA) desenvolvido pelo Google DeepMind em Londres poderia ajudar os cientistas a entender essa ‘matéria escura’ e ver como isso pode contribuir para doenças como câncer e influenciar o funcionamento interno das células. O modelo, chamado alfagenoma, é descrito em uma pré -impressão de 25 de junho.
“Esse é um dos problemas mais fundamentais, não apenas na biologia – em toda a ciência”, disse Pushmeet Kohli, chefe da IA da empresa para a ciência em um briefing da imprensa.
A ‘sequência para funcionar’ leva longos trechos de DNA e prevê várias propriedades, como os níveis de expressão dos genes que eles contêm e como esses níveis podem ser afetados por mutações.
“Eu acho que é um salto emocionante”, diz Anshul Kundaje, um genomista computacional da Universidade de Stanford em Palo Alto, Califórnia, que teve acesso precoce ao alfagenoma. “É uma melhoria genuína em praticamente todos os modelos atuais de sequência para função”.
Uma abordagem ‘tudo em um’
Quando o DeepMind revelou o Alphafold 2 em 2020, foi um longo caminho para resolver um problema que desafiou os pesquisadores por décadas: determinar como a sequência de uma proteína contribui para sua forma tridimensional.
Descobrir o que as seqüências de DNA fazem é diferente, porque não há uma resposta, como em uma estrutura 3D que o Alphafold oferece. Um único alongamento de DNA terá numerosos papéis interconectados-de atrair um conjunto de máquinas celulares para se agarrar a uma seção específica de um cromossomo e transformar um gene próximo em uma molécula de RNA, para atrair fatores de transcrição de proteínas que influenciam onde, quando e em que extensão a expressão gênica ocorre. Muitas seqüências de DNA, por exemplo, influenciam a atividade genética, alterando a forma 3D de um cromossomo, restringindo ou diminuindo o acesso à maquinaria que faz a transcrição.
Os biólogos estão se afastando dessa questão há décadas com vários tipos de ferramentas computacionais. Na última década, os cientistas desenvolveram dezenas de modelos de IA para entender o genoma. Muitos deles se concentraram em uma tarefa individual, como prever níveis de expressão gênica ou determinar como os segmentos modulares de genes individuais, chamados exons, são cortados e agitados em proteínas distintas. Mas os cientistas estão cada vez mais interessados em ferramentas ‘All in One’ para interpretar sequências de DNA.
O alfagenoma é um desses modelo. Pode levar informações de até um milhão de cartas de DNA – um trecho que pode incluir um gene e inúmeros elementos regulatórios – e fazer milhares de previsões sobre inúmeras propriedades biológicas. Em muitos casos, as previsões do alfagenoma são sensíveis a alterações de letra única, o que significa que os cientistas podem prever as consequências das mutações.
Em um exemplo, os pesquisadores do DeepMind aplicaram o modelo de alfagenoma a diversas mutações identificadas em estudos anteriores em pessoas com um tipo de leucemia. O modelo previu com precisão que as mutações não codificantes ativaram indiretamente um gene próximo que é um fator comum desse câncer.