Epigenome mapped in detail across human body
Epigenome mapped in detail across human body
A human body consists of trillions of cells, each of which has the same instruction manual within, a sequence of DNA three billion letters long. There are chemical compounds, including proteins, which modify how the instruction manual is interpreted, for example by attaching to DNA and turning a gene on or off. The chemical compounds which tell the genome what to do are collectively known as the epigenome.
The epigenome is the reason why a neuronal cell in the brain and a muscle cell in the heart have completely different shapes and sizes despite having the same instruction manual. As cells become specialised, their epigenome starts to change and diverge from the epigenome of other cell types. When specialised cells divide, much of their epigenome is passed on to the next generation of cells, resulting in entire tissues having a unique set of genomic modifications, also known as epigenomic “marks”.
Changes in the epigenome can cause, or result from, disease, so charting the locations and understanding the function of epigenomic marks is central to human biology. Creating epigenomic maps of each tissue is vital for the future of personalised medicine, as it can one day enable doctors to determine an individual’s health and tailor a patient’s response to medication.
An international research collaboration has addressed this challenge by cataloguing the human epigenome in unprecedented detail, charting the whole collection of epigenomic marks in more than 25 different types of tissues across the human body. The findings, published today in the journal Cell, provide the most comprehensive map of the human epigenome to date.
“Each individual is unique and has a degree of variation, meaning that my liver’s epigenome will differ from yours even though it’s the same tissue. We expect to see even greater changes in a state of disease, and this new resource will help us measure these differences in order to understand the mechanisms of disease,” explains Dr. Roderic Guigó, senior co-author of the study and researcher at the Centre for Genomic Regulation in Barcelona.
The study generated the epigenome dataset by sequencing the genomes of four individual donors and studying the activity of all of the genes and their regulatory regions across 30 different types of tissues, including data from hard-to-obtain tissues such as the lung. Known as EN-TEx, the personal epigenomes generated by the project can be used as a reference and combined with other human genome annotations to discern whether a genetic variant in a particular individual contributes to health or disease.
One of the unique strengths of EN-TEx is that it’s the first resource of its kind to include information from both copies of the chromosomes from each individual. It means that, for the first time, researchers will be able to discern the impact of maternal or paternally-inherited genetic variants on human biology.
"An individual has between 4 and 4.5 million mutations, but it's hard to know which ones are harmful. This resource allows us for the first time to know which mutations an individual has inherited from mom and dad, and understand which of them may potentially have an impact on their health,” explains Dr. Beatrice Borsari, who carried out the work during her PhD at the Centre for Genomic Regulation in Barcelona and is currently a postdoctoral researcher at Yale University in the United States.
EN-TEx overcomes one of the limitations of the original reference genome published in 2003. This was assembled using only one copy of each chromosome, meaning that genetic variants which are specific to one of the two copies of a chromosome – known as allele-specific (AS) variants – were missed or incorrectly represented. Successive large-scale initiatives such as the ENCODE or GTEx projects, which used the reference genome as the foundation for their findings, also failed to include these types of genetic variants. The research team used the resource to identify and locate more than one million AS variants in the genome, significantly more than what was previously known.
One of the applications of the resource is predicting the behaviour of DNA sequences that control how genes behave, also known as expression quantitative trait loci or eQTLs. Researchers leveraged the data in EN-TEx and used machine learning to build a tool which can transfer eQTLs from one tissue to another. In other words, it is now possible to detect how certain DNA sequences influence the behaviour of genes in hard-to-obtain tissues like the lung by measuring them from a blood sample instead, knowledge that can help develop new therapies and treatments for tissues that are hard to study, such as the heart or the lung.
Another important application of EN-TEx is being able to predict the behaviour of a class of proteins that modify the genome known as transcription factors. Mutations or changes in the regulation of transcription factors can lead to a wide range of diseases, including cancer, metabolic disorders, and immune disorders. As a result, transcription factors are an important target for the development of new therapeutics.
The team used EN-TEx to develop a deep learning model that can predict whether a variant can disrupt the binding site of transcription factors. The model revealed that researchers need to look beyond just the binding site itself and also consider the area around the site. The team found that the key to whether a binding site would be disrupted was the presence of nearby binding sequences for other regulatory factors.
“Think of regulatory factors as the legs of the Lunar Module,” says Mark Gerstein, PhD, professor of biomedical informatics at Yale University in a Yale School of Medicine news release. “If it has four legs and one leg doesn’t work, the three other legs can anchor the defective leg. Similarly, the anchoring of other regulatory factors might stabilize the disrupted binding site and make it less sensitive to variants.”
One limitation of the resource is that only four people of European descent are profiled. The team would like to eventually enlarge their study to encompass hundreds of individuals with more diverse ancestries.
The study was funded by the United States of America’s National Human Genome Research Institute (NHGRI) and led by researchers from Yale University, Harvard University, the Massachusetts Institute of Technology (MIT), Johns Hopkins University and Cold Spring Harbor Laboratory in the United States, as well as the Centre for Genomic Regulation in Barcelona.
Collaborating institutions including Baylor College of Medicine; California Institute of Technology; the Dana-Farber Cancer Institute; the European Bioinformatics Institute; HudsonAlpha Institute for Biotechnology; New York Institute of Technology; Stanford University; University of California, Irvine; University of California, San Diego; University of Hong Kong; University of Massachusetts Medical School; University of Toronto, Canada; and University of Washington, Seattle.
The Centre for Genomic Regulation’s role in the international collaboration includes participating in the design of the project and contributions to many areas of the subsequent research; developing models to transfer eQTLs among tissues, as well as improving the accuracy of analyzing data obtained from individual genomes rather than the reference genome.
"Catalonia has played a role in large-scale genomics initiatives over the last twenty years, including the Human Genome Project. Genomics is one of the fields which will have the greatest impact on people's lives in the 21st century. We have shown we can play an important role in these projects, but we also need to take charge and launch our own large-scale projects too. We are in a position to do so. For that, we need more resources, but above all it forward-thinking and ambition," concludes Dr. Guigó.
EN CASTELLANO
Crean el mapa más completo del epigenoma humano
El cuerpo humano consta de billones de células, cada una de las cuales tiene el mismo manual de instrucciones por dentro, una secuencia de ADN de tres mil millones de letras de largo. Hay compuestos químicos, incluidas las proteínas, que modifican la interpretación del manual de instrucciones, por ejemplo, uniéndose al ADN y activando o desactivando un gen. Las modificaciones hechas por los compuestos químicos que le dicen al genoma qué hacer se conocen colectivamente como el epigenoma.
El epigenoma es la razón por la cual una célula neuronal en el cerebro y una célula muscular en el corazón tienen formas y tamaños completamente diferentes a pesar de tener el mismo manual de instrucciones. A medida que las células se especializan, su epigenoma comienza a cambiar y divergir del epigenoma de otros tipos de células. Cuando las células especializadas se dividen, gran parte de su epigenoma se transmite a la siguiente generación de células, lo que resulta en tejidos enteros con un conjunto único de modificaciones genómicas, también conocidas como "marcas" epigenómicas.
Los cambios en el epigenoma pueden causar o ser el resultado de enfermedades, por lo que trazar las ubicaciones y comprender la función de las marcas epigenómicas es fundamental para la biología humana. La creación de mapas epigenómicos de cada tejido es vital para el futuro de la medicina personalizada, ya que algún día puede permitir a los médicos determinar la salud de un individuo o predecir la reacción de un paciente a un fármaco.
Una colaboración internacional de investigación ha abordado este reto catalogando el epigenoma humano de manera comprensiva, trazando toda la colección de marcas epigenómicas en más de 25 tipos diferentes de tejidos en todo el cuerpo humano. Los hallazgos, publicados hoy en la revista Cell, proporcionan el mapa más completo del epigenoma humano hasta la fecha.
"Cada individuo es único y tiene un grado de variación, lo que significa que el epigenoma de mi hígado diferirá del suyo a pesar de que es el mismo tejido. En un estado de enfermedad, estos cambios serán aún más pronunciados, y este nuevo recurso nos ayudará a medir estas diferencias para comprender los mecanismos de la enfermedad”, afirma el Dr. Roderic Guigó, coautor principal del estudio e investigador del Centro de Regulación Genómica en Barcelona.
El conjunto de datos fue generado secuenciando los genomas de cuatro donantes y estudiando la actividad de todos los genes y sus regiones reguladoras en 30 tipos diferentes de tejidos, incluyendo datos de tejidos difíciles de obtener como el pulmón. Conocido como EN-TEx, los epigenomas personales generados por el proyecto pueden usarse como referencia y combinarse con otras anotaciones del genoma humano para discernir si una variante genética en un individuo en particular contribuye a la salud o la enfermedad.
Una de las ventajas únicas de EN-TEx es que es el primer recurso de este tipo que incluye información de ambas copias de los cromosomas de cada individuo. Esto significa que, por primera vez, se puede discernir el impacto de las variantes genéticas heredades del lado materno o del lado paterno.
"De media, un individuo tiene entre 4 y 4,5 millones de mutaciones, pero es difícil saber cuáles son dañinas. Este recurso nos permite por primera vez saber qué mutaciones ha heredado un individuo de mamá y papá, y entender cuáles pueden tener un posible impacto en la salud", explica la doctora Beatrice Borsari, quien llevó a cabo el trabajo durante su doctorado en el Centro de Regulación Genómica en Barcelona y actualmente es investigadora postdoctoral en la Universidad de Yale en los Estados Unidos.
EN-TEx supera una de las limitaciones del genoma de referencia original publicado en el año 2003. El genoma de referencia se ensambló usando solo una copia de cada cromosoma, lo que significa que las variantes genéticas que son específicas de una de las dos copias de un cromosoma, conocidas como variantes alelo-específicas (AS), se omitieron o se representaron incorrectamente. Las sucesivas iniciativas a gran escala, como los proyectos ENCODE o GTEx, utilizaron el genoma de referencia como base para sus hallazgos y tampoco incluyeron estos tipos de variantes genéticas. El equipo de investigación utilizó el recurso para identificar y localizar más de un millón de variantes de AS en el genoma, ampliando el catálogo conocido.
Una de las aplicaciones del recurso EN-TEx es predecir el comportamiento de las secuencias de ADN que controlan cómo se comportan los genes, también conocidas como loci de rasgos cuantitativos de expresión o simplemente “eQTLs”. Aprovechando los datos en EN-TEx, el equipo de investigación utilizó el aprendizaje automático para construir una herramienta que puede transferir eQTL de un tejido a otro. Es decir, ahora es posible detectar cómo ciertas secuencias de ADN influyen en el comportamiento de los genes en los tejidos midiéndolos a partir de una muestra de sangre, una herramienta útil para desarrollar nuevas terapias y tratamientos para tejidos difíciles de estudiar, como el corazón o el pulmón.
Otra aplicación importante de EN-TEx es poder predecir el comportamiento de una clase de proteínas que modifican el genoma conocidas como factores de transcripción. Las mutaciones o cambios en la regulación de los factores de transcripción pueden conducir a una amplia gama de enfermedades, incluyendo el cáncer, los trastornos metabólicos y trastornos inmunes. Como resultado, los factores de transcripción son dianas terapéuticas de gran relevancia.
El equipo utilizó EN-TEx para desarrollar un modelo de aprendizaje profundo que puede predecir si una variante puede interrumpir el sitio de unión de los factores de transcripción. El modelo muestra que se debe mirar más allá del sitio de unión en sí y también considerar la zona alrededor del sitio. El equipo descubrió que la clave para determinar si un sitio de unión se interrumpiría era la presencia de las secuencias de unión de otros factores regulatorios cercanos.
"Piense en los factores regulatorios como las patas del módulo lunar", afirma el doctor Mark Gerstein, profesor de informática biomédica en la Universidad de Yale en un comunicado de prensa redactado por la Facultad de Medicina de Yale. "Si tiene cuatro patas y una no funciona, las otras tres pueden anclar la pata defectuosa. Del mismo modo, el anclaje de otros factores reguladores podría estabilizar el sitio de unión, haciéndolo menos sensible a las variantes.”
Una limitación del recurso es que solo cuatro personas de ascendencia europea fueron perfiladas para la generación de los datos. Al equipo le gustaría eventualmente ampliar su estudio para abarcar a cientos de individuos con genealogías más diversas.
El estudio fue financiado por el Instituto Nacional de Investigación del Genoma Humano (NHGRI) de los Estados Unidos de América y dirigido por equipos de investigación de la Universidad de Yale, la Universidad de Harvard, el Instituto de Tecnología de Massachusetts (MIT), la Universidad Johns Hopkins y el Laboratorio Cold Spring Harbor en los Estados Unidos, así como el Centro de Regulación Genómica, en Barcelona.
Entre las instituciones colaboradoras se incluyen el Baylor College of Medicine, el Instituto de Tecnología de California, el Instituto del Cáncer Dana-Farber, el Instituto Europeo de Bioinformática, el Instituto HudsonAlpha de Biotecnología, el Instituto de Tecnología de Nueva York, la Universidad de Stanford, la Universidad de California, Irvine, la Universidad de California, San Diego, la Universidad de Hong Kong, la Facultad de Medicina de la Universidad de Massachusetts, la Universidad de Toronto, Canadá, y la Universidad de Washington en Seattle.
El Centro de Regulación Genómica participó en el diseño del proyecto y contribuyó en muchas facetas del proyecto de investigación como, por ejemplo, en el desarrollo de los modelos para transferir eQTLs entre tejidos, y en la mejora de la precisión del análisis de datos obtenidos de genomas individuales en lugar del genoma de referencia.
"Cataluña ha participado de forma relevante en iniciativas genómicas a gran escala en los últimos veinte años, incluido el Proyecto Genoma Humano. La genómica es uno de los campos que tendrá el mayor impacto en la vida de las personas en el siglo 21. Hemos demostrado que podemos desempeñar un papel importante en estos proyectos, pero también tenemos que hacernos cargo y lanzar nuestros propios proyectos a gran escala. Estamos en condiciones de hacerlo. Para eso, necesitamos más recursos, pero sobre todo visión de futuro y ambición", concluye el Dr. Guigó.
EN CATALÀ
Creen el mapa més complet de l'epigenoma humà
El cos humà consta de bilions de cèl·lules, cadascuna de les quals té el mateix manual d'instruccions per dins, una seqüència d'ADN de tres mil milions de lletres de llargada. Hi ha compostos químics, incloses les proteïnes, que modifiquen la interpretació del manual d'instruccions, per exemple, unint-se a l'ADN i activant o desactivant un gen. Les modificacions fetes pels compostos químics que diuen al genoma què fer es coneixen col·lectivament com l'epigenoma.
L'epigenoma és la raó per la qual una cèl·lula neuronal al cervell i una cèl·lula muscular al cor tenen formes i mides completament diferents tot i tenir el mateix manual d'instruccions. A mesura que les cèl·lules s'especialitzen, el seu epigenoma comença a canviar i divergir de l'epigenoma d'altres tipus de cèl·lules. Quan les cèl·lules especialitzades es divideixen, gran part del seu epigenoma es transmet a la següent generació de cèl·lules, cosa que resulta en teixits sencers amb un conjunt únic de modificacions genòmiques, també conegudes com a “marques” epigenòmiques.
Els canvis a l'epigenoma poden causar o ser el resultat de malalties, per la qual cosa traçar les ubicacions i comprendre la funció de les marques epigenòmiques és fonamental per a la biologia humana. La creació de mapes epigenòmics de cada teixit és vital per al futur de la medicina personalitzada, ja que algun dia pot permetre als metges determinar la salut d’un individu o predir la reacció d’un pacient a un fàrmac.
Una col·laboració internacional de recerca ha abordat aquest repte catalogant l'epigenoma humà de manera comprensiva, traçant tota la col·lecció de marques epigenòmiques en més de 25 tipus diferents de teixits a tot el cos humà. Les troballes, publicades avui a la revista Cell, proporcionen el mapa més complet de l'epigenoma humà fins ara.
"Cada individu és únic i té un grau de variació, cosa que significa que l'epigenoma del meu fetge diferirà del seu, tot i que és el mateix teixit. En un estat de malaltia, aquests canvis seran encara més pronunciats, i aquest nou recurs ens ajudarà a mesurar aquestes diferències per comprendre els mecanismes de la malaltia”, afirma el Dr. Roderic Guigó, coautor principal de l'estudi i investigador del Centre de Regulació Genòmica a Barcelona.
El conjunt de dades va ser generat seqüenciant els genomes de quatre donants i estudiant l'activitat de tots els gens i les regions reguladores en 30 tipus diferents de teixits, incloent dades de teixits difícils d'obtenir com el pulmó. Conegut com a EN-TEx, els epigenomes personals generats pel projecte poden usar-se com a referència i combinar-se amb altres anotacions del genoma humà per discernir si una variant genètica en un individu en particular contribueix a la salut o la malaltia.
Un dels avantatges únics d'EN-TEx és que és el primer recurs d'aquest tipus que inclou informació de totes dues còpies dels cromosomes de cada individu. Això vol dir que, per primera vegada, es pot destriar l'impacte de les variants genètiques heretats del costat matern o del costat patern.
"De mitjana, un individu té entre 4 i 4,5 milions de mutacions, però és difícil saber quins són perjudicials. Aquest recurs ens permet per primera vegada saber quines mutacions ha heretat un individu de la mare i el pare, i entendre quines poden tenir un possible impacte en la salut", explica la doctora Beatrice Borsari, que va dur a terme la feina durant el seu doctorat al Centre de Regulació Genòmica a Barcelona i actualment és investigadora postdoctoral a la Universitat de Yale als Estats Units.
EN-TEx supera una de les limitacions del genoma de referència original publicat l'any 2003. El genoma de referència es va acoblar usant només una còpia de cada cromosoma, el que significa que les variants genètiques que són específiques d'una de les dues còpies d'un cromosoma, conegudes com a variants al·lel-específiques (AS), es van ometre o es van representar incorrectament. Les successives iniciatives a gran escala, com els projectes ENCODE o GTEx, van utilitzar el genoma de referència com a base per a les seves troballes i tampoc no van incloure aquests tipus de variants genètiques. L'equip de recerca va utilitzar el recurs per identificar i localitzar més d'un milió de variants d'AS al genoma, ampliant el catàleg conegut.
Una de les aplicacions del recurs EN-TEx és predir el comportament de les seqüències d'ADN que controlen com es comporten els gens, també conegudes com a loci de trets quantitatius d'expressió o simplement “eQTLs”. Aprofitant les dades a EN-TEx, l'equip de recerca va utilitzar l'aprenentatge automàtic per construir una eina que pot transferir eQTL d'un teixit a un altre. És a dir, ara és possible detectar com certes seqüències d'ADN influeixen en el comportament dels gens als teixits mesurant-los a partir d'una mostra de sang, una eina útil per desenvolupar noves teràpies i tractaments per a teixits difícils d'estudiar, com ara el cor o el pulmó.
Una altra aplicació important d'EN-TEx és poder predir el comportament d'una classe de proteïnes que modifiquen el genoma conegudes com a factors de transcripció. Les mutacions o canvis en la regulació dels factors de transcripció poden conduir a una àmplia gamma de malalties, incloent-hi el càncer, els trastorns metabòlics i trastorns immunes. Com a resultat, els factors de transcripció són dianes terapèutiques de gran rellevància.
L'equip va utilitzar EN-TEx per desenvolupar un model d'aprenentatge profund que pot predir si una variant pot interrompre el lloc d'unió dels factors de transcripció. El model mostra que cal mirar més enllà del lloc d’unió en si i també considerar la zona al voltant del lloc. L'equip va descobrir que la clau per determinar si un lloc d'unió s'interrompria era la presència de les seqüències d'unió d'altres factors reguladors propers.
"Penseu en els factors reguladors com les potes del mòdul lunar", afirma el doctor Mark Gerstein, professor d'informàtica biomèdica a la Universitat de Yale en un comunicat de premsa redactat per la Facultat de Medicina de Yale. "Si teniu quatre potes i una no funciona, les altres tres poden ancorar la pota defectuosa. De la mateixa manera, l'ancoratge d'altres factors reguladors podria estabilitzar el lloc d'unió, fent-lo menys sensible a les variants."
Una limitació del recurs és que només quatre persones d’ascendència europea van ser perfilades per a la generació de les dades. A l'equip li agradaria eventualment ampliar el seu estudi per abastar centenars d'individus amb genealogies més diverses.
L'estudi va ser finançat per l'Institut Nacional de Recerca del Genoma Humà (NHGRI) dels Estats Units d'Amèrica i dirigit per equips de recerca de la Universitat de Yale, la Universitat de Harvard, l'Institut de Tecnologia de Massachusetts (MIT), Universitat Johns Hopkins i el Laboratori Cold Spring Harbor als Estats Units, així com el Centre de Regulació Genòmica, a Barcelona.
Entre les institucions col·laboradores s'inclouen el Baylor College of Medicine, l'Institut de Tecnologia de Califòrnia, l'Institut del Càncer Dana-Farber, l'Institut Europeu de Bioinformàtica, l'Institut HudsonAlpha de Biotecnologia, l'Institut de Tecnologia de Nova York, la Universitat de Stanford, la Universitat de Califòrnia, Irvine, la Universitat de Califòrnia, San Diego, la Universitat de Hong Kong, la Facultat de Medicina de la Universitat de Massachusetts, la Universitat de Toronto, a Canadà, i la Universitat de Washington a Seattle.
El Centre de Regulació Genòmica va participar en el disseny del projecte i va contribuir a moltes facetes del projecte de recerca com, per exemple, en el desenvolupament dels models per transferir eQTLs entre teixits, i en la millora de la precisió de l'anàlisi de dades obtingudes de genomes individuals en lloc del genoma de referència.
"Catalunya ha participat de forma rellevant en iniciatives genòmiques a gran escala en els darrers vint anys, inclòs el Projecte Genoma Humà. La genòmica és un dels camps que tindrà el major impacte a la vida de les persones al segle 21. Hem demostrat que podem exercir un paper important en aquests projectes, però també hem de fer-nos càrrec i llançar els nostres propis projectes a gran escala. Estem en condicions de fer-ho. Per això, necessitem més recursos, però sobretot visió de futur i ambició", conclou el Dr. Guigó.