NEWS
Protein shapes can help untangle life’s ancient history
Artistic representation of saturation. Credit: Queralt Tolosa/Centro de Regulación Genómica
The three-dimensional shape of a protein can be used to resolve deep, ancient evolutionary relationships in the tree of life, according to a study in Nature Communications.
It is the first time researchers use data from protein shapes and combine it with data from genomic sequences to improve the reliability of evolutionary trees, a critical resource used by the scientific community for understanding the history of life, monitor the spread of pathogens or create new treatments for disease.
Crucially, the approach works even with the predicted structures of proteins that have never been experimentally determined. It has implications for the massive amount of structural data being generated by tools like AlphaFold 2 and help open new windows into the ancient history of life on Earth.
There are 210 thousand experimentally determined protein structures but 250 million known protein sequences. Initiatives like the EarthBioGenome project could generate billions more protein sequences in the next few years. The abundance of data opens the door to applying the approach on an unprecedented scale.
For many decades, biologists have been reconstructing evolution by tracing how species and genes diverge from common ancestors. These phylogenetic or evolutionary trees are traditionally built by comparing DNA or protein sequences and counting the similarities and differences to infer relationships.
However, researchers face a significant hurdle – a problem known as saturation. Over vast timescales, genomic sequences can change so much that they no longer resemble their ancestral forms, erasing signals of shared heritage.
“The issue of saturation dominates phylogeny and represents the main obstacle for the reconstruction of ancient relationships,” says Dr. Cedric Notredame, researcher at the Centre for Genomic Regulation (CRG) and lead author of the study. “It’s like the erosion of an ancient text. The letters become indistinct, and the message is lost.”
To overcome this challenge, the research team turned to the physical structures of proteins. Proteins fold into complex shapes that determine a cell’s function. These shapes are more conserved over evolutionary time than the sequences themselves, meaning they change more slowly and retain ancestral features for longer.
The shape of a protein is dictated by its amino acid sequence. While sequences may mutate, the overall structure often remains similar to preserve function. The researchers hypothesised they could gauge how much the structures diverge over time by measuring the distance between pairs of amino acids within a protein, also known as intra-molecular distances (IMDs).
The study compiled a massive dataset of proteins with known structures, covering a wide range of species. They calculated the IMDs for each protein and used these measurements to construct phylogenetic trees.
They found that trees built from structural data closely matched those derived from genetic sequences, but with a crucial advantage: the structural trees were less affected by saturation. This means they retained reliable signals even when genetic sequences had diverged significantly.
Recognising that both sequences and structures offer valuable insights, the team developed a combined approach which not only improved the reliability of the tree branches but also helped distinguish between correct and incorrect relationships.
"It's akin to having two witnesses describe an event from different angles," explains Dr. Leila Mansouri, coauthor of the study. "Each provides unique details, but together they give a fuller, more accurate account."
One practical example where the combined approach could make a significant impact is in understanding the relationships among kinases in the human genome. Kinases are proteins involved in many different important cellular functions.
"The genome of most mammals, including humans, contains about 500 protein kinases that regulate most aspects of our biology," says Dr. Notredame. "These kinases are major targets for cancer therapy, for example drugs like imatinib for humans or toceranib for dogs."
Human kinases have arisen through duplications occurring over the last billion years. "Within the human genome, the most distantly related kinases are about a billion years apart," says Dr. Notredame. "They duplicated in the common ancestor of the common ancestor of our common ancestor."
This vast timescale involved makes it incredibly difficult to build accurate gene trees that show how all these kinases are related. "Yet, as imperfect as it may be, the kinase evolutionary tree is widely used to understand how it interacts with other drugs. Improving this tree, or improving trees of other important protein families, would be an important advance for human health,” adds Dr. Notredame.
The potential applications of the work go beyond cancer. Using the approach to create more accurate evolutionary trees could also improve our understanding of how diseases evolve more generally, aiding in the development of vaccines and treatments. They can also help shed light on the origins of complex traits, guide the discovery of new enzymes for biotechnology, and even help trace the spread of species in response to climate change.
EN CASTELLANO
Las estructuras de las proteínas pueden ayudar a esclarecer la historia de la vida
La forma tridimensional de una proteína se puede utilizar para resolver las relaciones evolutivas profundas y ancestrales en el árbol de la vida, según un estudio publicado en Nature Communications.
Es la primera vez que se utilizan datos estructurales de proteínas y se combinan con datos de secuencias genómicas para mejorar la fiabilidad de los árboles evolutivos, un recurso crítico utilizado por la comunidad científica para comprender la historia de la vida, monitorear la propagación de patógenos o crear nuevos tratamientos para enfermedades.
El enfoque funciona incluso con la predicción de estructuras de proteínas. Tiene implicaciones para la enorme cantidad de datos estructurales generados por herramientas como AlphaFold 2 y ayuda a esclarecer aspectos de la historia antigua de la vida en la Tierra.
Se ha trazado la estructura tridimensional de unas 210.000 proteínas, pero se conoce la secuencia de más de 250 millones. Iniciativas como el proyecto EarthBioGenome podrían generar miles de millones de secuencias de proteínas más en los próximos años. Esta abundancia de datos abre la puerta a la aplicación del estudio a una escala sin precedentes.
Durante muchas décadas, la biología ha reconstruido la evolución rastreando cómo las especies y los genes divergen de los ancestros comunes. Tradicionalmente, estos árboles filogenéticos o evolutivos se construyen comparando secuencias de ADN o proteínas, y contando las similitudes y diferencias para inferir relaciones.
Sin embargo, el campo se enfrenta a un obstáculo importante: la saturación. A lo largo de vastos marcos temporales, las secuencias genómicas pueden cambiar tanto que ya no se parecen a sus formas ancestrales, borrando las señales de la herencia compartida.
"El tema de la saturación domina la filogenia y representa el principal obstáculo para la reconstrucción del árbol de la vida", afirma el Dr. Cedric Notredame, investigador del Centro de Regulación Genómica (CRG) y autor principal del estudio. "Es como la erosión de un texto antiguo. Las letras se vuelven indistintas, y el mensaje se pierde".
El equipo de investigación recurrió a las estructuras físicas de las proteínas. Las proteínas se pliegan en formas complejas que determinan la función de una célula. Las estructuras de proteínas se conservan mejor a lo largo de la evolución que las propias secuencias, lo que significa que cambian más lentamente y conservan las características ancestrales durante más tiempo.
La estructura de una proteína está dictada por su secuencia de aminoácidos. Si bien las secuencias pueden mutar, la estructura general a menudo permanece similar para preservar la función. Los autores del estudio plantearon la hipótesis que implicaba la posibilidad medir lo mucho que divergen las estructuras con el tiempo midiendo la distancia entre pares de aminoácidos dentro de una proteína, lo que también se conoce como distancias intra-moleculares (IMD).
El estudio compiló un conjunto masivo de datos de proteínas con estructuras conocidas, que cubren una amplia variedad de especies. Calcularon los IMD para cada proteína y utilizaron estas mediciones para construir árboles filogenéticos.
Descubrieron que los árboles construidos a partir de datos estructurales coincidían estrechamente con los derivados de las secuencias genéticas, pero con una ventaja crucial: los árboles estructurales se veían menos afectados por la saturación. Esto significa que mantuvieron señales fiables incluso cuando las secuencias genéticas habían divergido significativamente.
Reconociendo que tanto las secuencias como las estructuras ofrecen información valiosa, el equipo desarrolló un enfoque combinado que no solo mejoró la fiabilidad de las distintas ramas de los árboles, sino que también ayudó a distinguir entre las relaciones correctas e incorrectas.
"Es como tener dos testigos que describen un evento desde diferentes ángulos", explica la Dra. Leila Mansouri, coautora del estudio. "Cada uno proporciona detalles únicos, pero juntos proporcionan una narrativa más completa y precisa".
Un ejemplo práctico en el que el enfoque combinado podría tener un impacto significativo es la comprensión de las relaciones entre las quinasas en el genoma humano. Las quinasas son proteínas involucradas en muchas funciones celulares importantes.
"El genoma de la mayoría de los mamíferos, incluidos los humanos, contiene alrededor de 500 proteínas quinasas que regulan la mayoría de los aspectos de nuestra biología", dice el Dr. Notredame. "Estas quinasas son dianas terapéuticas importantes contra el cáncer, por ejemplo, fármacos como el Imatinib para los humanos o el Toceranib para los perros".
Las quinasas humanas han surgido a través de duplicaciones ocurridas durante los últimos mil millones de años. "Dentro del genoma humano, las quinasas más antiguas están separadas por unos mil millones de años de las más recientes", dice el Dr. Notredame. "Se duplicaron en el ancestro común del ancestro común de nuestro ancestro común".
Este vasto marco temporal hace que sea increíblemente difícil construir árboles genéticos precisos que muestren cómo se relacionan todas las quinasas. "Sin embargo, por imperfecto que sea, el árbol evolutivo de la quinasa se usa ampliamente para comprender cómo interactúa un fármaco con otro. La mejora de este árbol, o la mejora de los árboles de otras familias proteicas importantes, sería un avance importante para la salud humana", añade el Dr. Notredame.
Las posibles aplicaciones de este trabajo van más allá del cáncer. Se podría usar el método para crear árboles evolutivos más precisos que mejoren nuestra comprensión sobre la evolución de las enfermedades en general, ayudando en el desarrollo de vacunas y tratamientos. También pueden ayudar a arrojar luz sobre los orígenes de rasgos complejos, guiar el descubrimiento de nuevas enzimas para la biotecnología e incluso ayudar a rastrear la propagación de especies en respuesta al cambio climático.
EN CATALÀ
Les estructures de les proteïnes poden millorar l'arbre de la vida
La forma tridimensional d'una proteïna es pot utilitzar per resoldre les relacions evolutives profundes i ancestrals en l'arbre de la vida, segons un estudi publicat a Nature Communications.
És la primera vegada que s'utilitzen dades estructurals de proteïnes i es combinen amb dades de seqüències genòmiques per millorar la fiabilitat dels arbres evolutius, un recurs crític utilitzat per la comunitat científica per comprendre la història de la vida, monitorar la propagació de patògens o crear nous tractaments per a malalties.
L'enfocament funciona fins i tot amb la predicció d'estructures de proteïnes que mai s'han determinat experimentalment. Té implicacions per a l'enorme quantitat de dades estructurals generades per eines com AlphaFold 2 i ajuda a aclarir aspectes de la història antiga de la vida a la Terra.
Hi ha 210.000 estructures de proteïnes determinades experimentalment, però 250 milions de seqüències de proteïnes conegudes. Iniciatives com el projecte EarthBioGenome podrien generar milers de milions de seqüències de proteïnes més en els pròxims anys. Aquesta abundància de dades obre la porta a l'aplicació de l'estudi a una escala sense precedents.
Durant moltes dècades, la biologia ha reconstruït l'evolució rastrejant com les espècies i els gens divergeixen dels ancestres comuns. Aquests arbres filogenètics o evolutius es construeixen tradicionalment comparant seqüències d' ADN o proteïnes, i comptant les similituds i diferències per inferir relacions.
Tanmateix, el camp s'enfronta a un obstacle important: la saturació. Al llarg de vastos marcs temporals, les seqüències genòmiques poden canviar tant que ja no s'assemblen a les seves formes ancestrals, esborrant els senyals de l'herència compartida.
"El tema de la saturació domina la filogènia i representa el principal obstacle per a la reconstrucció de l'arbre de la vida", afirma el Dr. Cedric Notredame, investigador del Centre de Regulació Genòmica (CRG) i autor principal de l'estudi. "És com l'erosió d'un text antic. Les lletres es tornen indistintes, i el missatge es perd".
L'equip de recerca va recórrer a les estructures físiques de les proteïnes. Les proteïnes es pleguen en formes complexes que determinen la funció d'una cèl·lula. Aquestes estructures es conserven més al llarg del temps evolutiu que les pròpies seqüències, fet que significa que canvien més lentament i conserven les característiques ancestrals durant més temps.
L'estructura d'una proteïna està dictada per la seva seqüència d'aminoàcids. Si bé les seqüències poden mutar, l'estructura general sovint roman similar per preservar la funció. Els autors de l'estudi van plantejar la hipòtesi que implicava la possibilitat mesurar quant divergeixen les estructures amb el temps mesurant la distància entre parells d'aminoàcids dins d'una proteïna, el que es coneix com a distàncies intra-moleculars (IMD).
L'estudi va compilar un conjunt massiu de dades de proteïnes amb estructures conegudes, que cobreixen una àmplia varietat d'espècies. Van calcular els IMD per a cada proteïna i van utilitzar aquests mesuraments per construir arbres filogenètics.
Van descobrir que els arbres construïts a partir de dades estructurals coincidien estretament amb els derivats de les seqüències genètiques, però amb un avantatge crucial: els arbres estructurals es veien menys afectats per la saturació. Això significa que van mantenir senyals fiables, fins i tot quan les seqüències genètiques havien divergit significativament.
Reconeixent que tant les seqüències com les estructures ofereixen informació valuosa, l'equip va desenvolupar un enfocament combinat que no només va millorar la fiabilitat de les diferents branques dels arbres, sinó que també va ajudar a distingir entre les relacions correctes i incorrectes.
"És com tenir dos testimonis que descriuen un esdeveniment des de diferents angles", explica la Dra. Leila Mansouri, coautora de l’estudi. "Cadascú proporciona detalls únics, però junts proporcionen una narrativa més completa i precisa".
Un exemple pràctic en què l'enfocament combinat podria tenir un impacte significatiu és la comprensió de les relacions entre les quinases en el genoma humà. Les quinases són proteïnes involucrades en moltes funcions cel·lulars importants.
"El genoma de la majoria dels mamífers, inclosos els humans, conté al voltant de 500 proteïnes quinases que regulen la majoria dels aspectes de la nostra biologia", diu el Dr. Notredame. "Aquestes quinases són dianes terapèutiques importants contra el càncer, per exemple, fàrmacs com l'Imatinib per als humans o el Toceranib per als gossos".
Les quinases humanes han sorgit a través de duplicacions ocorregudes durant els últims mil milions d'anys. "Dins del genoma humà, les quinases més antigues estan separades per uns mil milions d'anys de les més recents", diu el Dr. Notredame. "Es van duplicar en l'ancestre comú de l'ancestre comú del nostre ancestre comú".
Aquest vast marc temporal fa que sigui increïblement difícil construir arbres genètics precisos que mostrin com es relacionen totes les quinases. "No obstant això, per imperfecte que sigui, l'arbre evolutiu de la quinasa es fa servir àmpliament per comprendre com interactua un fàrmac amb un altre. La millora d'aquest arbre, o la millora dels arbres d'altres famílies proteiques importants, seria un avenç important per a la salut humana", afegeix el Dr. Notredame.
Les possibles aplicacions d'aquest treball van més enllà del càncer. Es podria fer servir el mètode per crear arbres evolutius més precisos que millorin la nostra comprensió sobre l'evolució de les malalties en general, ajudant en el desenvolupament de vacunes i tractaments. També poden ajudar a esclarir els orígens de trets complexos, guiar el descobriment de nous enzims per a la biotecnologia i fins i tot ajudar a rastrejar la propagació d'espècies en resposta al canvi climàtic.