CRG researchers to build generative AI model for synthetic proteins

NEWS

Sep

Fri, 06/09/2024 - 08:53

CRG researchers to build generative AI model for synthetic proteins

Dr. Noelia Ferruz at the Centre for Genomic Regulation (CRG) has begun work to build ATHENA, a new AI model which can create proteins with custom properties that do not exist in nature.

EN CASTELLANO/EN CATALÀ

Researchers at the Centre for Genomic Regulation (CRG) have begun efforts to build ATHENA, a generative artificial intelligence which can design proteins with custom properties. The project, led by Dr. Noelia Ferruz, has been announced today with the backing of a 1.5 million euro Starting Grant from the European Research Council.

Proteins have widespread scientific, medical and industrial applications. This includes enzymes which shorten chemical reaction rates from years to milliseconds, antibodies which recognise and neutralise pathogens, or therapeutic proteins which target and treat disease. These proteins are the result of many millions of years of evolution.

ATHENA will help design new proteins which do not currently exist, with properties that can go beyond those found in nature. For instance, it can be used to create enzymes which sequester carbon dioxide from the atmosphere. Another designer protein can bind to BPA molecules, helping detect and remove the harmful pollutants from the environment.

“Though nature's toolkit is vast and astounding, it doesn't always provide the precise solutions we need. Proteins to tackle pressing challenges like climate change or environmental pollution either remain undiscovered or simply do not exist. We want to build tools that can make these proteins a reality, providing completely new ways of tackling long elusive problems,” explains Dr. Noelia Ferruz, Group Leader at the Centre for Genomic Regulation and coordinator of the ATHENA project.

ATHENA is a generative artificial intelligence tool. The most famous example of this fast-growing, disruptive technology is ChatGPT, which can process and generate human language in written form. Large language learning models like ChatGPT are trained using text-based datasets and have the ability to learn, improving over time.

ATHENA will be trained in a similar way, but using the ‘language’ of proteins. However, rather than just text, researchers will use multiple types of data from proteins, including their sequence (the order of amino acids), three dimensional structures (how proteins are shaped), dynamics (how they move), and functional information (what they do).

“This is like building an AI with text, images and videos all at once. The different types of data will help ATHENA understand and work with proteins in a way that isn’t possible right now, making it much more versatile and powerful in designing new proteins with specific properties,” says Dr. Ferruz.

The research team will use a technique called reinforcement learning to build ATHENA. This is an approach which closely mirrors humans learning from experience, allowing the model to improve from feedback and iteratively improve its protein designs based on laboratory experiments, making each subsequent design more likely to succeed.

For instance, ATHENA could create a protein with an enhanced ability to capture carbon dioxide. The proteins are then synthesized and tested in a laboratory setting. If a protein performs well, the AI is “rewarded”, while failures will lead to adjustments that stop the model from making the same mistakes again.

One of the challenges in AI is that models usually operate as black boxes, meaning we don’t know exactly how they make decisions. One of the unique traits of ATHENA is that the research team will design it using ‘explainable AI’, a process which makes the system more transparent and understandable to humans.

“We want to be able to see inside the AI model to understand how it makes decisions, rather than just accepting its outputs. This is important because it allows people to trust the technology, learn from it, and ensure it is making decisions for the right reasons. This will be one of the biggest challenges in the project,” concludes Dr. Ferruz.

The ATHENA project is a five-year initiative backed by a 1.5 million euro Starting Grant from the European Research Council (ERC), the premier research funding initiative set up by the European Union. The ERC announced 494 projects in its latest funding round today, 33 of which going to researchers based at instituted in Spain.

EN CASTELLANO

El CRG creará un modelo de IA generativa para diseñar proteínas sintéticas

Un equipo científico del Centro de Regulación Genómica (CRG) han comenzado a trabajar en la construcción de ATHENA, una inteligencia artificial generativa que puede diseñar proteínas con propiedades personalizadas. El proyecto, liderado por la Dra. Noelia Ferruz, se ha anunciado hoy y cuenta con el apoyo de una Starting Grant de 1,5 millones de euros del Consejo Europeo de Investigación.

Las proteínas tienen amplias aplicaciones científicas, médicas e industriales. Esto incluye enzimas que acortan los índices de reacción química de años a milisegundos, anticuerpos que reconocen y neutralizan patógenos o proteínas terapéuticas que atacan y tratan las enfermedades. Estas proteínas son el resultado de muchos millones de años de evolución.

ATHENA ayudará a diseñar nuevas proteínas que actualmente no existen, con propiedades que pueden ir más allá de las que se encuentran en la naturaleza. Por ejemplo, se puede utilizar para crear enzimas que aislan el dióxido de carbono de la atmósfera. Otro tipo de proteína podría unirse a las moléculas de BPA, ayudando a detectar y eliminar los contaminantes dañinos del medio ambiente.

"Aunque el conjunto de herramientas que existen en la naturaleza es vasto y asombroso, no siempre proporciona las soluciones precisas que necesitamos. Las proteínas que puedan ayudar a hacer frente a retos como el cambio climático o la contaminación ambiental siguen sin descubrirse o simplemente no existen. Queremos construir herramientas que puedan fabricar estas proteínas, proporcionando formas completamente nuevas de abordar estos retos", explica la Dra. Noelia Ferruz, líder de grupo en el Centro de Regulación Genómica y coordinadora del proyecto ATHENA.

ATHENA es una herramienta de inteligencia artificial generativa. El ejemplo más famoso de este tipo de tecnología disruptiva y rápido crecimiento es ChatGPT, que puede procesar y generar lenguaje humano en forma escrita. Los grandes modelos de aprendizaje de idiomas, como ChatGPT, se entrenan utilizando conjuntos de datos basados en texto y tienen la capacidad de aprender, mejorando con el tiempo.

ATHENA se entrenará de forma parecida, pero utilizando el "lenguaje" de las proteínas. Sin embargo, en lugar de solo texto, se utilizarán múltiples tipos de datos de las proteínas, incluida su secuencia (el orden de los aminoácidos), estructuras tridimensionales (cómo se forman las proteínas), dinámica (cómo se mueven) e información funcional (qué hacen).

"Esto es como construir una IA con texto, imágenes y videos a la vez. Los diferentes tipos de datos ayudarán a ATHENA a comprender y trabajar con proteínas de una manera que no es posible en este momento, lo que lo hace mucho más versátil y potente en el diseño de nuevas proteínas con propiedades específicas", afirma la Dra. Ferruz.

El equipo de investigación utilizará el aprendizaje por refuerzo, una técnica de IA, para construir ATHENA. Este es un enfoque que refleja el aprendizaje de los humanos con la experiencia, lo que permite que el modelo mejore a partir de la retroalimentación. Ayudará mejorar iterativamente sus diseños de proteínas basados en experimentos de laboratorio, lo que hace que cada diseño posterior tenga más probabilidades de éxito.

Por ejemplo, ATHENA podría crear una proteína con una capacidad mejorada para capturar dióxido de carbono. A continuación, las proteínas se sintetizan y se prueban en un laboratorio. Si una proteína funciona bien, la IA es "recompensada", mientras que las proteínas que fracasan ayudarán a ajustar los parámetros del modelo, y así evitar que vuelva a cometer los mismos errores.

Uno de los retos de la IA es que los modelos suelen funcionar como cajas negras, lo que significa que no sabemos exactamente cómo toman decisiones. Una de las características únicas de ATHENA es que el equipo de investigación lo diseñará utilizando "IA explicable", un proceso que hace que el sistema sea más transparente y comprensible para los humanos.

"Queremos ser capaces de ver el interior del modelo de IA para entender cómo toma decisiones, en lugar de limitarse a aceptar sus resultados. Esto es importante porque permite a las personas confiar en la tecnología, aprender de ella y asegurarse de que está tomando decisiones por las razones correctas. Este será uno de los mayores retos del proyecto", concluye la Dra. Ferruz.

El proyecto ATHENA es una iniciativa de cinco años respaldada por una Starting Grant de 1,5 millones de euros del Consejo Europeo de Investigación (ERC), la principal iniciativa de financiación de la investigación creada por la Unión Europea. El ERC ha anunciado hoy 494 proyectos en su última ronda de financiación, 33 de los cuales se han destinado a investigadores e investigadoras en España.

EN CATALÀ

El CRG crearà un model d'IA generativa per dissenyar proteïnes sintètiques

Un equip científic del Centre de Regulació Genòmica (CRG) han començat a treballar en la construcció d'ATHENA, una intel·ligència artificial generativa que pot dissenyar proteïnes amb propietats personalitzades. El projecte, liderat per la Dra. Noelia Ferruz, s'ha anunciat avui i compta amb el suport d'una Starting Grant d'1,5 milions d'euros del Consell Europeu de Recerca.

Les proteïnes tenen àmplies aplicacions científiques, mèdiques i industrials. Això inclou enzims que escurcen els índexs de reacció química d'anys a mil·lisegons, anticossos que reconeixen i neutralitzen patògens o proteïnes terapèutiques que ataquen i tracten les malalties. Aquestes proteïnes són el resultat de molts milions d'anys d'evolució.

ATHENA ajudarà a dissenyar noves proteïnes que actualment no existeixen, amb propietats que poden anar més enllà de les que es troben a la natura. Per exemple, es pot utilitzar per crear enzims que aïllen el diòxid de carboni de l'atmosfera. Un altre tipus de proteïna podria unir-se a les molècules de BPA, ajudant a detectar i eliminar els contaminants nocius del medi ambient.

"Encara que el conjunt d'eines que existeixen a la natura és vast i sorprenent, no sempre proporciona les solucions precises que necessitem. Les proteïnes que puguin ajudar a fer front a reptes com el canvi climàtic o la contaminació ambiental segueixen sense descobrir-se o simplement no existeixen. Volem construir eines que puguin fabricar aquestes proteïnes, proporcionant formes completament noves d'abordar aquests reptes", explica la Dra Ferruz.

ATHENA és una eina d'intel·ligència artificial generativa. L'exemple més famós d'aquest tipus de tecnologia disruptiva i ràpid creixement és ChatGPT, que pot processar i generar llenguatge humà de forma escrita. Els grans models d'aprenentatge d'idiomes, com ChatGPT, s'entrenen utilitzant conjunts de dades basats en text i tenen la capacitat d'aprendre, millorant amb el temps.

ATHENA s'entrenarà de forma semblant, però utilitzant el "llenguatge" de les proteïnes. No obstant això, en lloc de només text, s'utilitzaran múltiples tipus de dades de les proteïnes, inclosa la seva seqüència (l'ordre dels aminoàcids), estructures tridimensionals (com es formen les proteïnes), dinàmica (com es mouen) i informació funcional (què fan).

"Això és com construir una IA amb text, imatges i vídeos alhora. Els diferents tipus de dades ajudaran ATHENA a comprendre i treballar amb proteïnes d'una manera que no és possible en aquest moment, cosa que el fa molt més versàtil i potent en el disseny de noves proteïnes amb propietats específiques", afirma la Dra. Ferruz.

L'equip de recerca utilitzarà l'aprenentatge per reforç, una tècnica d'IA, per construir ATHENA. Aquest és un enfocament que reflecteix l'aprenentatge dels humans amb l'experiència, fet que permet que el model millori a partir de la retroalimentació. Ajudarà millorar iterativament els seus dissenys de proteïnes basats en experiments de laboratori, i això fa que cada disseny posterior tingui més probabilitats d'èxit.

Per exemple, ATHENA podria crear una proteïna amb una capacitat millorada per capturar diòxid de carboni. A continuació, les proteïnes se sintetitzen i es proven en un laboratori. Si una proteïna funciona bé, la IA és "recompensada", mentre que les proteïnes que fracassen ajudaran a ajustar els paràmetres del model, i així evitar que torni a cometre els mateixos errors.

Un dels reptes de la IA és que els models solen funcionar com a caixes negres, cosa que significa que no sabem exactament com prenen decisions. Una de les característiques úniques d'ATHENA és que l'equip de recerca el dissenyarà utilitzant "IA explicable", un procés que fa que el sistema sigui més transparent i comprensible per als humans.

"Volem ser capaços de veure l'interior del model d'IA per entendre com pren decisions, en lloc de limitar-se a acceptar els seus resultats. Això és important perquè permet a les persones confiar en la tecnologia, aprendre'n i assegurar-se que està prenent decisions per les raons correctes. Aquest serà un dels majors reptes del projecte", conclou la Dra. Ferruz.

El projecte ATHENA és una iniciativa de cinc anys recolzada per una Starting Grant d'1,5 milions d'euros del Consell Europeu de Recerca (ERC), la principal iniciativa de finançament de la recerca creada per la Unió Europea. L'ERC ha anunciat avui 494 projectes en la seva última ronda de finançament, 33 dels quals s'han destinat a investigadors i investigadores a Espanya.

Contact:

Omar Jamshed

Senior Press & Communications Officer
Phone +34 93 316 02 37

You are here

CRG researchers to build generative AI model for synthetic proteins

NEWS

CRG researchers to build generative AI model for synthetic proteins

EN CASTELLANO

El CRG creará un modelo de IA generativa para diseñar proteínas sintéticas

EN CATALÀ

El CRG crearà un model d'IA generativa per dissenyar proteïnes sintètiques

Archive