NEWS
Scientists build a ‘Hubble Space Telescope’ to study the evolution of life through genome sequences
A new tool that simultaneously compares 1.4 million genetic sequences can classify how species are related to each other at far larger scales than previously possible. Described today in Nature Biotechnology by researchers from the Centre for Genomic Regulation in Barcelona, the technology can reconstruct how life has evolved over hundreds of millions of years and makes important inroads for the ambition to understand the code of life for every living species on Earth.
Protecting Earth’s biodiversity is one of the most urgent global challenges of our times. To steward the planet for all life forms, humanity must understand the way animals, fungi, bacteria and other organisms have evolved and how they interact amongst millions of other species. Sequencing the genome of life on Earth can unlock previously unknown secrets that yield fresh insights into the evolution of life, while bringing new foods, drugs and materials that pinpoint strategies for saving species at risk of extinction.
The most common way scientists study these relationships is by using Multiple Sequence Alignments (MSA), a tool that can be used to describe the evolutionary relationships of living organisms by looking for similarities and differences in their biological sequences, finding matches among seemingly unrelated sequences and predicting how a change at a specific point in a gene or protein might affect its function. The technology underpins so much biological research that the original study describing it is one of the most cited papers in history.
“We currently use multiple sequence alignments to understand the family tree of species evolution,” says Cédric Notredame, a researcher at the Centre for Genomic Regulation in Barcelona and lead author of the study. “The bigger your MSA, the bigger the tree and the deeper we dig into the past and find how species appeared and separated from each other.
“What we’ve made lets us dig ten times deeper than what we’ve been able to do before, helping us to see hundreds of millions of years into the past. Our technology is essentially a time machine that tells us how ancient constraints influenced genes in a way that resulted in life as we know today, much like how the Hubble Space Telescope observes things that happened millions of years ago to help us understand the Universe we live in today.”
Researchers can use MSA to understand how certain species of plants have evolved to be more resistant to climate change, or how particular genetic mutations in one species makes them vulnerable to extinction. By studying a living organism’s evolutionary history, scientists may come up with and test new ideas to stave off the collapse of entire ecosystems.
Technological advances have made sequencing cheaper than ever before, resulting in increasingly large datasets with more than a million sequences for scientists to analyse. Some ambitious endeavours, like the Earth BioGenome Project, may run to the tens of millions. Researchers have not been able to take full advantage of these enormous datasets because current MSAs cannot analyse more than 100,000 sequences with accuracy.
To evaluate the scale-up potential of MSA, the authors of the paper used Nextflow, a cloud-computing software developed in-house at the Centre for Genomic Regulation. “We spent hundreds of thousands of hours of computation to test our algorithm’s effectiveness,” says Evan Floden, a researcher at the CRG who also led on developing the tool. “My hope is that in combining high-throughput instrumentation readouts with high-throughput computation, science will usher in an era of vastly improved biological understanding, ultimately leading to better outcomes for consumers, patients and our planet as a whole.”
“There is a vast amount of ‘dark matter’ in biology, code we have yet to identify in the unexplored parts of the genome that is untapped potential for new medicines and other benefits we can’t fathom,” concludes Cédric. “Even seemingly inconsequential organisms may play a pivotal role in furthering human health and that of our planet, such as the discovery of CRISPR in archaea. What we have built is a new way of finding the needles in the haystack of life’s genomes.”
A research paper describing the technology is published today in Nature Biotechnology, which was built through a collaboration between the Centre for Genomic Regulation, the Universitat Pompeu Fabra, the ESCI-UPF school of international studies and the Institute of Science and Technology in Austria.
EN ESPAÑOL
Los científicos construyen un "Telescopio Espacial Hubble" para estudiar la evolución de la vida a través de secuencias del genoma
Una nueva herramienta que compara simultáneamente 1,4 millones de secuencias genéticas puede clasificar cómo se relacionan entre ellas las especies a escalas mucho mayores de lo que era posible hasta ahora. Descrita hoy en Nature Biotechnology por investigadores del Centro de Regulación Genómica de Barcelona, esta tecnología puede reconstruir cómo ha evolucionado la vida a lo largo de cientos de millones de años, y hace importantes avances con la ambición de comprender el código de la vida para cada especie viva de la Tierra.
Proteger la biodiversidad de la Tierra es uno de los retos globales más urgentes de nuestro tiempo. Para cuidar del planeta para todas sus formas de vida, la humanidad debe entender cómo han evolucionado animales, hongos, bacterias y otros organismos, y cómo interactúan entre millones de otras especies. La secuenciación del genoma de la vida en la Tierra puede desvelar secretos hasta ahora desconocidos que aporten nuevas visiones sobre la evolución de la vida, a la vez que aporten nuevos alimentos, fármacos y materiales que apunten estrategias para salvar a especies en riesgo de extinción.
El modo más habitual con el que los científicos estudian estas relaciones es mediante el alineamiento múltiple de secuencias (MSA), una herramienta que se puede utilizar para describir las relaciones evolutivas de los organismos vivos buscando similitudes y diferencias en sus secuencias biológicas, encontrando coincidencias entre secuencias aparentemente no relacionadas y predecir de qué manera un cambio en un punto concreto de un gen o proteína puede afectar su función. Esta tecnología se sustenta en tanta investigación biológica que el estudio original que la describe es uno de los artículos más citados de la historia.
"Actualmente utilizamos alineamiento múltiple de secuencias para comprender el árbol genealógico de la evolución de las especies", afirma Cédric Notredame, investigador del Centro de Regulación Genómica de Barcelona y autor principal del estudio. "Cuanto mayor sea tu MSA, mayor será el árbol y más profundamente podremos escarbar en el pasado, y podremos descubrir cómo aparecieron y se separaron las especies entre sí.
"Lo que hemos hecho nos permite excavar diez veces más profundamente de lo que habíamos podido hacer hasta ahora, ayudándonos a escrutar cientos de millones de años atrás. Nuestra tecnología es esencialmente una máquina del tiempo que nos explica de qué forma las antiguas limitaciones influyeron en los genes para dar lugar a la vida tal como la conocemos hoy, de manera muy parecida a cómo el Telescopio Espacial Hubble observa cosas que ocurrieron hace millones de años con el fin de ayudar a comprender el universo en el que vivimos.”
Los investigadores pueden utilizar el MSA para entender de qué modo han evolucionado algunas especies de plantas hasta ser más resistentes al cambio climático o de qué modo algunas mutaciones genéticas en particular de una especie las hace vulnerables a la extinción. Al estudiar la historia evolutiva de un organismo vivo, los científicos quizá puedan plantearse y experimentar nuevas ideas que eviten el colapso de ecosistemas enteros.
Los avances tecnológicos han hecho que la secuenciación sea más barata que nunca, dando lugar a conjuntos de datos cada vez mayores con más de un millón de secuencias que los científicos pueden analizar. Algunos esfuerzos ambiciosos, como el Earth BioGenome Project, pueden llegar a decenas de millones de ellas. Los investigadores no han podido sacar el máximo provecho de esos inmensos conjuntos de datos ya que los MSA actuales no pueden analizar con exactitud más de 100.000 secuencias.
Para evaluar el potencial de ampliación de MSA, los autores del estudio utilizaron Nextflow, un software de computación en nube desarrollado internamente en el Centro de Regulación Genómica. "Hemos dedicado cientos de miles de horas de cálculo para probar la eficacia de nuestro algoritmo", afirma Evan Flodin, investigador del CRG que también ha liderado el desarrollo de la herramienta. "Mi esperanza es que, al combinar lecturas de instrumentación de gran rendimiento con computación de alto rendimiento, la ciencia entre en una época de comprensión biológica enormemente mejorada, que aporte finalmente mejores resultados para los consumidores, los pacientes y nuestro planeta en general."
"Hay una gran cantidad de 'materia oscura' en biología, código que aún tenemos que identificar en las partes inexploradas del genoma, que no ha sido aprovechada para nuevos medicamentos y otros beneficios que no podemos aún comprender", concluye Cédric. "Incluso algunos organismos aparentemente irrelevantes pueden tener un papel fundamental en la promoción de la salud humana y la de nuestro planeta, como el descubrimiento de CRISPR con las arqueas. Lo que hemos construido es una nueva manera de encontrar las agujas en el pajar de los genomas de la vida."
Se publica hoy un artículo de investigación que describe dicha tecnología en Nature Biotechnology, elaborada a través de una colaboración entre el Centro de Regulación Genómica, la Universidad Pompeu Fabra, la escuela de estudios internacionales ESCI-UPF y el Instituto de Ciencia y Tecnología de Austria.
EN CATALÀ
Els científics construeixen un "Telescopi Espacial Hubble" per estudiar l'evolució de la vida a través de seqüències del genoma
Una nova eina que compara simultàniament 1,4 milions de seqüències genètiques pot classificar ara com es relacionen entre elles les espècies a escales molt més grans del que era possible fins ara. Descrita avui a Nature Biotechnology per investigadors del Centre de Regulació Genòmica de Barcelona, aquesta tecnologia pot reconstruir de quina forma ha evolucionat la vida al llarg de centenars de milions d’anys, i fa importants avenços amb l’ambició d’entendre el codi de la vida per a cada espècie viva de la Terra.
Protegir la biodiversitat de la Terra és un dels reptes globals més urgents dels nostres temps. Per poder tenir cura del planeta per a totes les formes de vida, la humanitat ha d’entendre com han evolucionat els animals, els fongs, els bacteris i altres organismes, i com interactuen entre milions d’altres espècies. La seqüenciació del genoma de la vida a la Terra pot desbloquejar secrets fins ara desconeguts que aportin visions noves sobre l'evolució de la vida, alhora que aporten nous aliments, fàrmacs i materials que apuntin estratègies a fi de salvar espècies en risc d'extinció.
La manera més habitual en què els científics estudien aquestes relacions és mitjançant l’alineament múltiple de seqüències (MSA), una eina que es pot utilitzar per descriure les relacions evolutives dels organismes vius buscant similituds i diferències en les seves seqüències biològiques, trobant coincidències entre seqüències aparentment no relacionades i predir com un canvi en un punt concret d'un gen o proteïna pot afectar-ne la seva funció. Aquesta tecnologia se sustenta en tanta recerca biològica que l'estudi original que la descriu és un dels articles més citats de la història.
"Actualment utilitzem alineament múltiple de seqüències per comprendre l'arbre genealògic de l'evolució de les espècies", afirma Cédric Notredame, investigador del Centre de Regulació Genòmica de Barcelona i autor principal de l'estudi. “Com més gran sigui la vostra MSA, més gran serà l’arbre i més profund excavarem en el passat i descobrirem com van aparèixer i separar-se entre si les espècies.
"El que hem fet ens permet excavar deu vegades més profundament del que havíem pogut fer mai, ajudant-nos a observar centenars de milions d'anys en el passat. La nostra tecnologia és essencialment una màquina del temps que ens explica de quina forma les antigues limitacions van influir en els gens per donar lloc a la vida tal com la coneixem avui, de manera molt semblant a com el Telescopi Espacial Hubble observa coses que van passar fa milions d’anys per ajudar-nos a comprendre l’univers on vivim.”
Els investigadors poden utilitzar l'MSA per entendre com algunes espècies de plantes han evolucionat fins a ser més resistents al canvi climàtic o com algunes mutacions genètiques en particular d’una espècie les fa vulnerables a l’extinció. En estudiar la història evolutiva d'un organisme viu, els científics potser puguin plantejar i experimentar noves idees que permetin evitar el col·lapse d'ecosistemes sencers.
Els avenços tecnològics han fet que la seqüenciació sigui més barata que mai, donant lloc a conjunts de dades cada cop més grans amb més d’un milió de seqüències que els científics poden analitzar. Alguns esforços ambiciosos, com ara l'Earth BioGenome Project, poden arribar a aconseguir-ne desenes de milions. Els investigadors no han pogut aprofitar al màxim aquests immensos conjunts de dades perquè els MSA actuals no poden analitzar amb exactitud més de 100.000 seqüències.
Per avaluar el potencial d’ampliació d'MSA, els autors de l'estudi van utilitzar Nextflow, un programari de computació en núvol desenvolupat internament al Centre de Regulació Genòmica. "Hem dedicat centenars de milers d'hores de càlcul per provar l'eficàcia del nostre algoritme", afirma Evan Floden, un investigador del CRG que també ha liderat el desenvolupament de l'eina. "La meva esperança és que, en combinar lectures d'instrumentació de gran rendiment amb computació d'alt rendiment, la ciència entri en una època de comprensió biològica enormement millorada, que aporti finalment millors resultats per als consumidors, els pacients i el nostre planeta en general.”
"Hi ha una gran quantitat de 'matèria fosca' en biologia, codi que encara hem d'identificar a les parts inexplorades del genoma, que no ha estat aprofitada per a nous medicaments i altres beneficis que no podem capir encara", conclou Cédric. “Fins i tot alguns organismes aparentment irrellevants poden tenir un paper fonamental en la promoció de la salut humana i la del nostre planeta, com ara el descobriment de CRISPR amb els arqueobacteris. El que hem construït és una nova manera de trobar les agulles al paller dels genomes de la vida.”
Avui es publica un article de recerca que descriu aquesta tecnologia a Nature Biotechnology, elaborada a través d'una col·laboració entre el Centre de Regulació Genòmica, la Universitat Pompeu Fabra, l’escola d’estudis internacionals ESCI-UPF i l’Institut de Ciència i Tecnologia d’Àustria.