NOTÍCIES
Q&A with Noelia Ferruz, Group Leader of Artificial Intelligence for Protein Design
Dr. Ferruz pictured today a the Centre for Genomic Regulation's headquarters at the Barcelona Biomedical Research Park
Proteins are the work horses of a cell. They provide structure, speed up reactions and help cells talk to each other. There are millions of species on Earth, each with a unique set of proteins. For example, the human genome alone contains approximately 20 to 25 thousand protein-coding genes.
Combining all known and estimated species, including microbes, there are many proteins waiting to be discovered with unique capabilities. For example, a protein that can break down pollutants and plastics, reducing environmental pollution and promoting sustainability, or another that can enhance crop resistance to pests or disease.
Finding these proteins in nature is a huge endeavour, through discovery, sequencing, and testing. Since the1 990s, researchers have instead tried to create proteins with desired traits by manipulating genes and proteins or mimicking natural selection in the lab.
Recent advances in artificial intelligence and machine learning, such as the development of protein language models and tools like AlphaFold, has significantly accelerated progress in the field. These technologies allow for more precise predictions of protein structures and functions. Rather than modify existing proteins, some researchers designing entirely new proteins with specific functions that do not exist in nature.
Dr. Noelia Ferruz is one of these researchers. She has recently joined the Centre for Genomic Regulation (CRG) and opened a new group dedicated to the development of protein language models that can create custom-designed proteins. The proteins can help us tackle a variety of complex problems in healthcare, agriculture, climate change and industrial applications.
Originally from the capital of Aragón, Dr. Ferruz has a degree in Chemistry from the University of Zaragoza. She subsequently completed an Erasmus at the University of Cambridge and pursued both a Masters and Doctorate in bioinformatics at the Pompeu Fabra University, also at the Barcelona Biomedical Research Park (PRBB).
Dr. Ferruz has experience collaborating with partners in industry including Boehringer Ingelheim and Janssen. Her first postdoctoral research project was at Pfizer’s research laboratories in Boston (USA). In the second stage of her postdoctoral degree she moved to Germany, spending five years at the University of Bayreuth. She later opened a group at the Institute of Molecular Biology of Barcelona.
We sat down with Dr. Ferruz to find out more about her work and her plans for the lab at the CRG.
Q: How did you become interested in this line of research?
It was around early 2019. OpenAI had just released GPT-2 and I was living in Germany at the time. It was spectacular. I remember trying to learn German and this programme appears out of nowhere that can generate perfect text in German. The next question was obvious. Proteins are made of individuals just like text. Can we use something similar to GPTs but create proteins instead?
Q: What is a protein language model?
Everyone’s used a large-language model like Chat-GPT. We’ve basically created the equivalent for proteins, calling our version ProGPT2. The base technology is the same; we train a model which learns from data, and after training, it can produce proteins.
Q: What is the difference between ProGPT2 and AlphaFold?
AlphaFold solves a classic problem in biology, which is to predict the shape of a protein from its sequence, something researchers have been trying to do for decades. With ProGPT2, the goal was to generate new proteins, ones that don't exist in nature, and see if they work in the lab. After generating new proteins with GPT, we use AlphaFold to predict their shapes. So, it’s a different tool for a different stage in the protein design factory.
Q: Who can use your models? Is it free and accessible?
All my models are open source. The code is available, and the models are uploaded to Hugging Face, an AI community and repository for language models. Anyone with a computer can use them without restrictions.
Q: Do the proteins you make go through the same safety and ethical processes as natural proteins? Are they patented or a common good?
Yes, all biotechnological products must undergo clinical trials and safety assessments. This won't change. The percentage of people with access to high-tech labs capable of testing these designs is very small. Copyright is a hot topic. In using text to image AI models such as Stable Diffusion and Midjourney, supposedly you own the copyright to generated content. However, many believe it’s not possible to copyright generated content. In the world of proteins, this is similar, but it's not yet regulated.
Q: What are your priorities in the short and medium term?
I want to train models that combine multiple data types and understand their internal working processes with explainability techniques.
Q: If you were not a researcher, what do you think you would be doing right now?
I used to do professional track and field until I moved to Germany, where I struggled to continue because of sustaining injuries. In another world, I’d go back to that. Right now, I live in Girona, wake up very early, travel to work, and return home late. It’s a very different routine balancing work with family life, especially with young children!
Q: Did your time in sports help you become a better scientist?
A lot of what you learn doing competitive sports is related to discipline, time management, and self-motivation, which are also crucial in research. Competing against yourself helps you push your limits. Also, it’s made me transparent and results-driven. We are doing something that is very internationally-competitive and exciting so we have to have that proactive, go-getting attitude. I think we can be really successful here at the CRG. I am a natural optimist.
EN CASTELLANO
Entrevista Noelia Ferruz, líder del nuevo grupo de Inteligencia Artificial para el Diseño de Proteínas
Las proteínas son los caballos de batalla de una célula. Proporcionan estructura, aceleran las reacciones y ayudan a las células a comunicarse entre sí. Hay millones de especies en la Tierra, cada una con un conjunto único de proteínas. Por ejemplo, solo el genoma humano contiene aproximadamente de 20 a 25 mil genes codificadores de proteínas.
Combinando todas las especies conocidas y estimadas, incluidos los microbios, hay muchas proteínas con capacidades únicas que esperan a ser descubiertas. Por ejemplo, una proteína que pueda descomponer los contaminantes y los plásticos, reduciendo la contaminación ambiental y promoviendo la sostenibilidad, u otra que pueda mejorar la resistencia de los cultivos a las plagas o las enfermedades.
Encontrar estas proteínas en la naturaleza es un gran esfuerzo, ya que es necesario descubrirlas, secuenciarlas y validarlas. Desde los años 90, la ciencia ha intentado crear proteínas con ciertos rasgos deseados mediante la manipulación de genes y proteínas o la imitación de la selección natural en el laboratorio.
Avances recientes en la inteligencia artificial y el aprendizaje automático, como por ejemploel desarrollo de modelos de lenguaje de proteínas y herramientas como AlphaFold, han acelerado el progreso en el campo. Estas tecnologías permiten predicciones más precisas de las estructuras y funciones de las proteínas. En lugar de modificar las proteínas existentes, algunos grupos han empezado a diseñar proteínas completamente nuevas con funciones específicas que no existen en la naturaleza.
La Dra. Noelia Ferruz lidera uno de estos grupos. Recientemente se ha incorporado al Centro de Regulación Genómica (CRG) y ha abierto un laboratorio dedicado al desarrollo de modelos de lenguaje de proteínas que pueden crear proteínas diseñadas a medida. Las proteínas pueden ayudarnos a abordar una variedad de problemas complejos en la clínica, la agricultura, el cambio climático y las aplicaciones industriales.
Originaria de la capital aragonesa, la Dra. Ferruz es licenciada en Química por la Universidad de Zaragoza. Posteriormente realizó un Erasmus en la Universidad de Cambridge y cursó un Máster y un Doctorado en Bioinformática en la Universidad Pompeu Fabra, que comparte edificio con el CRG en el Parque de Investigación Biomédica de Barcelona (PRBB).
La Dra. Ferruz tiene experiencia colaborando con la industria, incluidas las famacéuticas Boehringer Ingelheim y Janssen. Su primer proyecto de investigación postdoctoral fue en los laboratorios de investigación de Pfizer en Boston (EE.UU.). En la segunda etapa de su posdoctorado se trasladó a Alemania, donde pasó cinco años en la Universidad de Bayreuth. Más tarde creó su propio grupo en el Instituto de Biología Molecular de Barcelona.
Nos sentamos con la Dra. Ferruz para saber más sobre su trabajo y sus planes de futuro en el CRG.
P: ¿Cuándo te empezó a interesar esta línea de investigación?
Fue a principios de 2019. OpenAI acababa de lanzar GPT-2 y en ese momento vivía en Alemania. Fue espectacular. Recuerdo que estaba intentando aprender alemán y de la nada apareció este programa que puede generar un texto perfecto en alemán. La siguiente pregunta era obvia. Las proteínas están formadas por letras al igual que el texto. ¿Podemos usar algo similar a los GPT, pero para crear proteínas?
P: ¿Qué es un modelo de lenguaje de proteínas?
Todo el mundo ha utilizado un modelo generativo de lenguaje como Chat-GPT. Básicamente, hemos creado el equivalente para las proteínas, y lo hemos llamado ProGPT2. La tecnología base es la misma: entrenamos un modelo que aprende de los datos y, después del entrenamiento, puede producir proteínas.
P: ¿Cuál es la diferencia entre ProGPT2 y AlphaFold?
AlphaFold resuelve un problema clásico de la biología, que consiste en predecir la forma de una proteína a partir de su secuencia, algo que los investigadores han estado tratando de hacer durante décadas. Con ProGPT2, el objetivo es generar nuevas proteínas, que no existen en la naturaleza, y ver si funcionan en el laboratorio. Después de generar nuevas proteínas, utilizamos AlphaFold para predecir sus formas. Por lo tanto, es una herramienta diferente para una etapa diferente en la ‘fábrica de diseño’ de proteínas.
P: ¿Quién puede usar tus modelos? ¿Son gratuitos y accesibles?
Todos mis modelos son de código abierto. El código está disponible y los modelos se cargan en Hugging Face, una comunidad de IA y repositorio de modelos de lenguaje. Cualquiera que tenga acceso a un ordenador puede usarlos sin restricciones.
P: ¿Las proteínas que fabrican pasan por los mismos procesos éticos y de seguridad que las proteínas naturales? ¿Están patentadas o son un bien común?
Sí, todos los productos biotecnológicos deben someterse a ensayos clínicos y evaluaciones de seguridad. Esto no va a cambiar. El porcentaje de personas con acceso a laboratorios de alta tecnología capaces de probar estos diseños es muy pequeño. Los derechos de autor son un tema candente. Al utilizar modelos de IA de texto a imagen como Stable Diffusion y Midjourney, supuestamente posees los derechos de autor del contenido generado. Sin embargo, muchos creen que no es posible proteger los derechos de autor del contenido generado. En el mundo de las proteínas, esto es similar, pero aún no está regulado.
P: ¿Cuáles son tus prioridades a corto y medio plazo?
Quiero entrenar modelos que combinen varios tipos de datos y comprender sus procesos de trabajo internos con técnicas de IA explicable, es decir, técnicas que intentan responder a cuestiones sobre los procesos de toma de decisiones de los sistemas de IA.
P: Si no fueras investigadora, ¿qué crees que estarías haciendo ahora mismo?
Solía hacer atletismo profesional hasta que me mudé a Alemania, donde no pude continuar debido a las lesiones. En otro mundo, volvería a eso. Ahora mismo vivo en Girona, me levanto muy temprano, viajo al trabajo y vuelvo tarde a casa. Es una rutina muy diferente equilibrar el trabajo con la vida familiar, ¡especialmente con niños pequeños!
P: ¿Te ha ayudado tu etapa como deportista a convertirte en una mejor investigadora?
Mucho de lo que se aprende haciendo deporte a nivel competitivo está relacionado con la disciplina, la gestión del tiempo y la automotivación, que también son cruciales en la investigación. Competir contra ti misma te ayuda a superar tus límites. Además, me ha hecho transparente y orientada a obtener resultados. Estamos haciendo algo que es muy competitivo a nivel internacional, por lo que tenemos que tener esa actitud proactiva y ambiciosa. Creo que podemos tener mucho éxito aquí en el CRG. Soy una optimista innata.
EN CATALÀ
Entrevista Noelia Ferruz, líder del nou grup d'Intel·ligència Artificial per al Disseny de Proteïnes
Les proteïnes són els cavalls de batalla d'una cèl·lula. Proporcionen estructura, acceleren les reaccions i ajuden les cèl·lules a comunicar-se entre si. Hi ha milions d'espècies a la Terra, cadascuna amb un conjunt únic de proteïnes. Per exemple, només el genoma humà conté aproximadament de 20 a 25 mil gens codificadors de proteïnes.
Combinant totes les espècies conegudes i estimades, inclosos els microbis, hi ha moltes proteïnes amb capacitats úniques que esperen a ésser descobertes. Per exemple, una proteïna que pugui descompondre els contaminants i els plàstics, reduint la contaminació ambiental i promovent la sostenibilitat, o una altra que pugui millorar la resistència dels cultius a les plagues o les malalties.
Trobar aquestes proteïnes a la natura és un gran esforç, ja que cal descobrir-les, seqüenciar-les i validar-les. Des dels anys 90, la ciència ha intentat crear proteïnes amb certs trets desitjats mitjançant la manipulació de gens i proteïnes o la imitació de la selecció natural al laboratori.
Avenços recents en la intel·ligència artificial i l'aprenentatge automàtic, com ara el desenvolupament de models de llenguatge de proteïnes i eines com AlphaFold, han accelerat el progrés en el camp. Aquestes tecnologies permeten prediccions més precises de les estructures i funcions de les proteïnes. En lloc de modificar les proteïnes existents, alguns grups han començat a dissenyar proteïnes completament noves amb funcions específiques que no existeixen a la natura.
La Dra. Noelia Ferruz lidera un d'aquests grups. Recentment s'ha incorporat al Centre de Regulació Genòmica (CRG) i ha obert un laboratori dedicat al desenvolupament de models de llenguatge de proteïnes que poden crear proteïnes dissenyades a mida. Les proteïnes poden ajudar-nos a abordar una varietat de problemes complexos a la clínica, l'agricultura, el canvi climàtic i les aplicacions industrials.
Originària de la capital aragonesa, la Dra. Ferruz és llicenciada en Química per la Universitat de Saragossa. Posteriorment va realitzar un Erasmus a la Universitat de Cambridge i va cursar un Màster i un Doctorat en Bioinformàtica a la Universitat Pompeu Fabra, que comparteix edifici amb el CRG al Parc de Recerca Biomèdica de Barcelona (PRBB).
La Dra. Ferruz té experiència col·laborant amb la indústria, incloses les farmacèutiques Boehringer Ingelheim i Janssen. El seu primer projecte d'investigació postdoctoral va ser als laboratoris d'investigació de Pfizer a Boston (EUA). En la segona etapa del seu postdoctorat es va traslladar a Alemanya, on va passar cinc anys a la Universitat de Bayreuth. Més tard va crear el seu propi grup a l'Institut de Biologia Molecular de Barcelona.
Ens asseiem amb la Dra. Ferruz per conèixer el seu treball i els seus plans de futur al CRG.
P: Quan et va començar a interessar aquesta línia d'investigació?
Va ser a principis del 2019. OpenAI acabava de llançar GPT-2 i en aquell moment vivia a Alemanya. Va ser espectacular. Recordo que estava intentant aprendre alemany i del no-res va aparèixer aquest programari que pot generar un text perfecte en alemany. La següent pregunta era òbvia. Les proteïnes estan formades per lletres igual que el text. Podem fer servir una cosa similar als GPT, però per crear proteïnes?
P: Què és un model de llenguatge de proteïnes?
Tothom ha utilitzat un model generatiu de llenguatge com Chat-GPT. Bàsicament, hem creat l'equivalent per a les proteïnes, i l’hem anomenat ProGPT2. La tecnologia base és la mateixa: entrenem un model que aprèn de les dades i, després de l'entrenament, pot produir proteïnes.
P: Quina és la diferència entre ProGPT2 i AlphaFold?
AlphaFold resol un problema clàssic de la biologia, que consisteix a predir la forma d'una proteïna a partir de la seva seqüència, una cosa que els investigadors han estat tractant de fer durant dècades. Amb ProGPT2, l'objectiu és generar noves proteïnes, que no existeixen a la natura, i veure si funcionen al laboratori. Després de generar noves proteïnes, utilitzem AlphaFold per predir les seves formes. Per tant, és una eina diferent per a una etapa diferent a la 'fàbrica de disseny' de proteïnes.
P: Qui pot fer servir els teus models? Són gratuïts i accessibles?
Tots els meus models són de codi obert. El codi està disponible i els models es carreguen a Hugging Face, una comunitat d'IA i repositori de models de llenguatge. Qualsevol que tingui accés a un ordinador pot fer-los servir sense restriccions.
P: Les proteïnes que fabriquen passen pels mateixos processos ètics i de seguretat que les proteïnes naturals? Estan patentades o són un bé comú?
Sí, tots els productes biotecnològics s'han de sotmetre a assaigs clínics i avaluacions de seguretat. Això no canviarà. El percentatge de persones amb accés a laboratoris d'alta tecnologia capaces de provar aquests dissenys és molt petit. Els drets d'autor són un tema candent. En utilitzar models d'IA de text a imatge com Stable Diffusion i Midjourney, suposadament posseeixes els drets d'autor del contingut generat. Tanmateix, molts creuen que no és possible protegir els drets d'autor del contingut generat. En el món de les proteïnes, això és similar, però encara no està regulat.
P: Quines són les teves prioritats a curt i mitjà termini?
Vull entrenar models que combinin diversos tipus de dades i comprendre els seus processos de treball interns amb tècniques d'IA explicable, és a dir, tècniques que intenten respondre a qüestions sobre els processos de presa de decisions dels sistemes d'IA.
P: Si no fossis investigadora, què creus que estaries fent ara mateix?
Solia fer atletisme professional fins que vaig anar a viure a Alemanya, on no vaig poder continuar a causa de les lesions. En un altre món, tornaria a fer això. Ara mateix visc a Girona, em llevo molt d'hora, viatjo a la feina i torno tard a casa. És una rutina molt diferent equilibrar la feina amb la vida familiar, especialment amb nens petits!
P: T'ha ajudat la teva etapa com a esportista a convertir-te en una millor investigadora?
Molt del que s'aprèn fent esport a nivell competitiu està relacionat amb la disciplina, la gestió del temps i l'automotivació, que també són crucials en la recerca. Competir contra tu mateixa t'ajuda a superar els teus límits.
A més, m'ha fet transparent i orientada a obtenir resultats. Estem fent una cosa que és molt competitiva a nivell internacional, fet pel qual hem de tenir aquesta actitud proactiva i ambiciosa. Crec que podem tenir molt èxit aquí al CRG. Sóc una optimista innata.