Eu disse à AI para me tornar uma proteína. Aqui está o que surgiu


Os pesquisadores usaram modelos de IA para projetar proteínas fluorescentes verdes (GFPs) que funcionam com instruções de texto.Crédito: Laguna Design/Science Photo Library
Recentemente, usei a IA para projetar uma proteína horrível. Após instruções passo a passo, fiz um modelo de linguagem de proteínas rudimentares (PLM)-uma ferramenta de inteligência artificial (AI) que produz sequências de proteínas em vez de palavras. Com algumas linhas de código copiado e colado, pedi ao modelo que sonhasse uma curta sequência de aminoácidos.
O que vem a seguir para Alphafold e a revolução dobrável de proteínas da AI
Eu não sabia o quão ruim minha proteína era até perguntar a Alphafold, o preditor de estrutura de proteínas do Google Deepmind, como era. A estrutura prevista tinha hélices, loops e outros elementos realistas. Mas Alphafold tinha confiança muito baixa em sua previsão – um sinal de que minha molécula provavelmente não poderia ser feita nas células do laboratório, muito menos fazer qualquer coisa útil.
Agora, os dabblers em biologia computacional como eu têm uma nova esperança. Os cientistas estão desenvolvendo uma nova geração de ferramentas biológicas de IA que tomam instruções em linguagem simples e as transformam em proteínas e outras moléculas, incluindo potenciais medicamentos. Os modelos também permitem que os pesquisadores ‘conversassem’ com as células em inglês comum decifrem seu funcionamento interno e colher outras idéias biológicas.
É a última vez de eventos na Revolução Bio-AI que está transformando campos como projeto de proteínas e biologia estrutural. PLMs e outras ferramentas de IA permitem que os cientistas projetem moléculas como enzimas e anticorpos com relativa facilidade. Mas tirar o máximo proveito dessas ferramentas normalmente requer experiência considerável.
Chatgpt for Science: Como falar com seus dados
Modelos que permitem que os usuários interrogem a biologia usando texto simples pode diminuir a barreira para se juntar à revolução da Bio-AI, dizem os cientistas. Esses AIs também têm o potencial de permitir um maior controle sobre os projetos resultantes e outras saídas.
“Seria útil ser capaz de especificar com precisão o que queremos e ter uma proteína ser projetada com esses recursos”, diz Mohammed Alquuraishi, biólogo computacional da Columbia University, em Nova York.
Texto para proteína
No mês passado, uma equipe liderada por Fajie Yuan, cientista de aprendizado de máquina da Universidade Westlake em Hangzhou, China, mostrou que um modelo de texto para proteína que sua equipe desenvolveu pode projetar proteínas funcionais, incluindo enzimas testadas por laboratório e proteínas fluorescentes, que são originais em seus projetos e não são semelhantes às moléculas existentes. “Somos os primeiros a projetar uma enzima funcional usando apenas texto”, diz Yuan. “É como ficção científica.”

‘Uma proteína horrível’: o repórter Ewen Callaway criou um modelo de linguagem de proteínas (PLM) e usou instruções básicas de código para gerar essa proteína.Crédito: Google DeepMind/EMBL-EBI (CC-BY-4.0)
O modelo, chamado Pinal, é um dos vários AIs projetados de proteínas que podem ser direcionados com linguagem comum-em oposição a uma sequência de proteínas ou às especificações guiadas por estrutura típicas da maioria dos AIs.
Mas são os primeiros dias para esses modelos Bio-AI, diz Anthony Gitter, biólogo computacional da Universidade de Wisconsin-Madison. “Eu vejo isso como uma área de alto risco e alta recompensa”, diz ele.
Como falar molécula
O ensino de modelos biológicos de IA a se comunicar em inglês (ou qualquer idioma) geralmente envolve expor -os a descrições de texto de dados biológicos. A equipe de Yuan treinou o Pinal usando descrições curtas das estruturas, funções e outras características de 1,7 bilhão de proteínas. Após algum treinamento extra, o modelo pode levar um prompt e produzir centenas de designs de sequência1. O modelo possui uma interface da Web, mas não é acessível abertamente.
Ferramenta de previsão de proteínas da IA alphafold3 agora está mais aberta
Um aviso que os pesquisadores usaram foi “projetar uma proteína que seja uma desidrogenase de álcool”, referindo-se a uma enzima metabolizante de álcool. Yuan e seus colegas usaram outras ferramentas computacionais para identificar os projetos mais promissores e, trabalhando com um colaborador biólogo, testaram sua atividade enzimática.
Dois dos oito projetos de desidrogenase de álcool catalisou com sucesso a quebra do álcool, embora com muito menos eficiência do que as enzimas naturais. Yuan diz que sua equipe também projetou proteínas fluorescentes verdes (GFPs) e enzimas de degradação de plástico, todas diferentes em sequência de exemplos naturais.
Várias outras equipes desenvolveram modelos de IA semelhantes, incluindo um chamado ESM-3 que pode ser solicitado com palavras-chave, bem como com sequências e estruturas de proteínas. Uma empresa de start-up chamada 310.Ai desenvolveu uma ferramenta proprietária chamada MP4 que projetou uma série de proteínas de entradas de texto2incluindo vários que, no laboratório, podem se ligar à fonte de energia celular ATP. A empresa está usando o modelo para projetar proteínas que agem como medicamentos para GLP-1, os tratamentos de obesidade de sucesso de bilheteria, diz seu vice-presidente da Discovery Timothy Riley.

Converse com suas células: os modelos de IA estão permitindo que os cientistas ‘falem’ com as células usando linguagem comum.Crédito: Dr. Gopal Murti/Science Photo Library
Um desafio para modelos como a 310.AI’s está apresentando as instruções de texto certas para uma IA seguir, diz Kathy Wei, co-fundadora da empresa, embora o LLMS possa ajudar a criar instruções bem-sucedidas. Ela o compara aos primeiros dias das IAs geradoras de imagens, como Dall-e: algumas instruções eram mais frutíferas que outras, e as lutas dos modelos para representar as mãos humanas, por exemplo, eram frequentemente uma oferta. Em vez de mãos de aparência estranha, o MP4 às vezes pode apresentar proteínas com seqüências repetitivas, diz Wei.