A IA da DeepMind revela a estrutura de 98,5 por cento das proteínas humanas

Por

Imagem padrão do novo cientista

Determinar as dobras delicadas das proteínas tradicionalmente leva séculos, mas DeepMind AI acelera isso

DeepMind

Demorou décadas de pesquisas meticulosas para mapear a estrutura de apenas 17 por cento das proteínas usadas no corpo humano, mas menos de um ano para a empresa de IA do Reino Unido, DeepMind, para elevar esse número para 98,5 por cento. A empresa está disponibilizando todos esses dados gratuitamente, o que pode levar a avanços rápidos no desenvolvimento de novos medicamentos.

Determinando a forma complexa e amarrotada das proteínas com base na sequência de aminoácidos que os formam tem sido um grande obstáculo científico. Alguns aminoácidos são atraídos por outros, alguns são repelidos pela água e as cadeias têm formas intrincadas que são difíceis de calcular com precisão. A compreensão dessas estruturas permite que novos medicamentos altamente direcionados sejam projetados para se ligarem a partes específicas das proteínas.

A pesquisa genética há muito fornece a capacidade de determinar a sequência de uma proteína, mas uma maneira eficiente de encontrar a forma – crucial para a compreensão de suas propriedades – provou ser difícil. Embora supercomputadores e projetos de computação distribuída tenham sido eficazes, eles não conseguiram fazer um progresso significativo.

A DeepMind publicou uma pesquisa no ano passado que provou que a IA pode resolver o problema rapidamente. Sua rede neural AlphaFold foi treinada em seções de formas de proteínas previamente resolvidas e aprendeu a deduzir a estrutura de novas sequências, que foram então verificadas em relação a dados experimentais.

Desde então, a empresa vem aplicando e refinando a tecnologia para milhares de proteínas, começando com o proteoma humano, proteínas relevantes para covid-19 e outras que irão beneficiar a pesquisa imediata. Já está a divulgar os resultados numa base de dados criada em parceria com o Laboratório Europeu de Biologia Molecular.

DeepMind mapeou a estrutura de 98,5 por cento das cerca de 20.000 proteínas do corpo humano. Para 35,7 por cento deles, o algoritmo deu uma confiança de mais de 90 por cento de precisão na previsão de sua forma.

A empresa divulgou mais de 350.000 previsões da estrutura da proteína no total, incluindo aquelas para 20 organismos modelo adicionais que são importantes para a pesquisa biológica, de Escherichia coli para fermento. A equipe espera que em alguns meses possa adicionar quase todas as proteínas sequenciadas conhecidas pela ciência – mais de 100 milhões de estruturas.

John Moult, da Universidade de Maryland, diz que o aumento da IA ​​na área de dobramento de proteínas foi uma “profunda surpresa”.

“É revolucionário em um sentido que é difícil de entender”, diz ele. “Se você está trabalhando com alguma doença rara e nunca teve uma estrutura, agora você será capaz de ver informações estruturais que eram basicamente muito, muito difíceis ou impossíveis de obter antes.”

Demis Hassabis, executivo-chefe e fundador da DeepMind, diz que AlphaFold – que é composto por cerca de 32 algoritmos separados e foi feito de código aberto – agora está resolvendo formas de proteínas em minutos ou, em alguns casos, segundos usando hardware não mais sofisticado do que um placa gráfica padrão.

“É preciso um [graphics processing unit] alguns minutos para dobrar uma proteína, o que certamente levaria anos de trabalho experimental ”, diz ele. “Vamos apenas colocar esse tesouro de dados lá fora. De certa forma, é um pouco estonteante, porque passar da descoberta de criar um sistema que pode fazer isso para realmente produzir todos os dados foi apenas uma questão de meses. Esperamos que se torne uma espécie de ferramenta padrão que todos os biólogos ao redor do mundo usam. ”

A equipe também adicionou uma medida de confiança a todas as previsões da estrutura, que Hassabis diz ter considerado vital, uma vez que os resultados serão a base para os esforços de pesquisa. Hassabis acredita que alguma parte das proteínas humanas para as quais a estrutura prevista teve pontuações de confiança mais baixas pode ser devida a erros na sequência ou talvez “algo intrínseco à biologia”, como proteínas que são inerentemente desordenadas ou imprevisíveis. Os 1,5 por cento restantes do proteoma humano para os quais nenhuma estrutura foi publicada eram proteínas com sequências maiores que 2700 segmentos, que foram excluídos por enquanto para minimizar o tempo de execução.

Referência do jornal: Natureza, DOI: https://www.nature.com/articles/s41586-021-03828-1

Mais sobre esses tópicos:

Leave a Reply

Your email address will not be published. Required fields are marked *