NOTÍCIES
Viral Beacon: A beacon in the ocean of SARS-CoV-2 data
An ELIXIR Spain platform allows researchers to browse SARS-CoV-2 variability at the genome, amino acid, structural and motif level
When responding to a health crisis, data play a critical role in identifying drug targets, vaccines or disease-related symptoms, and understanding individual variations in response to the infection. Yet the tools, standards and computational workflows to analyse these data play an even more prominent role. Today, data analysis is often multi-faceted, combining multi-omics data with clinical and even environmental data. However, many studies require a more holistic approach; for instance, looking at small amino acid variations while navigating the changes at the genomic level.
Bioinformaticians from the Center for Genomic Regulation (CRG), based in Barcelona and part of ELIXIR Spain, have developed a platform that fills in the gaps in the SARS-CoV-2 ocean of data— the COVID-19 Viral Beacon. It provides scientists with the means for an in-depth analysis of raw and consensus COVID-19 data from several datasets: European Nucleotide Archive (ENA), Oxford Nanopore, Illumina, NCBI/SRA and GISAID.
What can the Viral Beacon offer?
The platform presents a one-stop-shop. It allows users to search for specific genetic variants and explore the associated metadata. For instance, it filters viral strains from a particular geographic region.
Additionally, the platform offers a friendly interface. Researchers can focus on finding an answer to their research hypothesis instead of immersing themselves into the time-consuming task of downloading, analysing and curating data or building software.
Jordi Rambla, Team Leader of EGA at the CRG, explained:
‘We have developed the CRG Viral Beacon platform to facilitate knowledge flow among genomic researchers, epidemiologists and amateurs. The platform is readily accessible to quickly search SARS-CoV-2 genomic information even via mobile phones.’
- SNP query — search for single nucleotide polymorphisms, insertions or deletions.
- Region query — search for all variants within a given position range.
- Feature query — search for all variants in the genomic annotation.
- Motif query — search for short motifs on genomic regions.
- Amino Acid query — search for amino acid changes on protein regions.
A theoretical scenario
A COVID-19 patient develops severe symptoms and presents no other risk factors, such as obesity or diabetes. Researchers hypothesise that a distinct genetic variant of the virus could confer higher virulence.
However, most available databases, such as GISAID, only provide consensus sequences (the most representative ones). This approach is crucial for epidemiological studies but masks individual variations that exhibit a low proportion in the viral population of each individual.
The Viral Beacon can shed some light on this matter. It can help challenge hypothesis and unveil insights hidden in the vast amounts of COVID-19 data thanks to well-defined queries. Researchers can quickly analyse both raw and consensus data to discover variants that, for instance, could account for individual differences in cellular tropism or immune response that may lead to more severe clinical phenotypes.
The team seeks to make this scenario a reality. Babita Singh, part of the EGA Team at the CRG, said:
‘Now we seek additional collaborations with experts in the field to help us extend the functionalities of this tool to make Beacon a quick go-to genomic variants search tool for COVID and other infectious diseases. In future, our goal is also to include human genomic variants information to study the interplay between human and virus genomics.’
The architecture behind the platform — a GA4GH product
CRG’s Viral Beacon utilises the GA4GH product of the Beacon API, whose prime goal is to share genomic data in biomedical research without compromising privacy. ELIXIR has been a long-time investor in the generation and implementation of the Beacon API; this viral Beacon provides an exciting extension of its use.
Initially, the GA4GH Beacon API facilitated the discovery of human Single Nucleotide Polymorphisms (SNP), but since its inception, the protocol has evolved towards more complex applications with increased functionality.
A few months back, CRG quickly modified and extended the architecture and functionality of this tool for SARS-CoV-2 data discovery. The ELIXIR Spain Node started compiling data from public sequence data through dedicated pipelines (read the Galaxy paper for more details).
The resulting product, the Viral Beacon, allows the efficient discovery and analysis of SARS-CoV-2 genetic variability, and associated COVID-19 data, at an accelerated rate; a critical development in the fight against this global pandemic.
‘The sudden blow of the pandemic demanded ‘act first and think later’ approach, to develop something useful that we can readily provide to the genomics community working on COVID-19 with what we had in hand. We are still adding new functionalities to Beacon platform and, in fact, this is the right time for experts in the field to jump in and guide us to design pathogen-specific Beacon platforms for infectious diseases’, claimed Rambla.
Funding & Acknowledgements
- Galaxy Project
- European Nucleotide Archive
- GISAID Initiative
- Fundación “la Caixa”
- ELIXIR
- Global Alliance for Genomic Health
- Spanish National Bioinformatics Institute (INB)
- Instituto de Salud Carlos III
- Ministerio de Asuntos Económicos y Transformación Digital — Gobierno de España
- Centre for Genomic Regulation
- Barcelona Supercomputer Center (BSC-CNS)
Viral Beacon: Un faro en medio del océano de datos de SARS-CoV-2
La plataforma de ELIXIR España permite a la comunidad científica navegar a través de la variabilidad del SARS-CoV-2 a nivel del genoma, de los aminoácidos, a nivel estructural y de patrones
En la respuesta a una crisis sanitaria, los datos juegan un papel crítico para identificar fármacos diana, vacunas o síntomas vinculados con la enfermedad, y para comprender las variaciones individuales en respuesta a la infección. Así pues, las herramientas, los estándares y los flujos de trabajo computacional para analizar estos datos juegan incluso un papel más prominente. Hoy en día, el análisis de datos es a menudo multifacético, combinando datos multi-ómicos con datos clínicos e incluso datos medioambientales. Sin embargo, muchos estudios requieren un enfoque más holístico; por ejemplo, observar pequeñas variaciones en los aminoácidos a la vez que se revisan los cambios a nivel genómico.
Un equipo bioinformático del Centro de Regulación Genómica (CRG), en Barcelona, y parte de ELIXIR España, ha desarrollado una plataforma que completa los huecos en el océano de datos de SARS-CoV-2: COVID-19 Viral Beacon. La plataforma proporciona a los equipos científicos los medios para realizar análisis en profundidad de datos crudos y consensuados de COVID-19 a partir de diversos conjuntos de datos: European Nucleotide Archive (ENA), Oxford Nanopore, Illumina, NCBI/SRA y GISAID.
¿Qué nos ofrece Viral Beacon?
La plataforma se presenta como una ventanilla única. Permite a los usuarios/as hacer búsquedas por variantes genéticas específicas y explorar los metadatos asociados. Por ejemplo, filtrar cepas virales de una región geográfica en particular.
Adicionalmente, la plataforma ofrece una interfaz fácil de usar. Los equipos científicos pueden centrarse en encontrar una respuesta a su hipótesis en lugar de sumergirse en tareas demasiado laboriosas como descargar, analizar y seleccionar datos o diseñar un software.
Jordi Rambla, jefe del Equipo EGA en el CRG, explica:
‘Hemos desarrollado la plataforma CRG Viral Beacon para facilitar el flujo de conocimiento entre investigadores del ámbito de la genómica, epidemiólogos y amateurs. La plataforma es de fácil acceso para buscar rápidamente información genómica sobre SARS-CoV-2 incluso a través de los teléfonos móviles’.
- Consultas sobre SNPs — búsqueda de polimorfismos de nucleótido único (SNPs), inserciones o supresiones.
- Consultas sobre regiones — búsqueda de todas las variantes de un rango dado de posiciones.
- Consultas sobre características — búsqueda de todas las variantes en la anotación genómica.
- Consultas sobre patrones — búsqueda de patrones cortos en regiones genómicas.
- Consultas sobre aminoácidos — búsqueda de cambios en aminoácidos en regiones proteínicas.
Escenario teórico
Una paciente de COVID-19 desarrolla síntomas graves y no presenta otros factores de riesgo, tales como obesidad o diabetes. El equipo científico plantea la hipótesis siguiente: una variante genética distinta del virus puede causar una virulencia mayor.
Sin embargo, la mayoría de bases de datos disponibles, tales como GISAID, sólo proporcionan datos de secuencias consensuados (los más representativos). Este enfoque es crucial para estudios epidemiológicos, pero oculta variaciones individuales que muestran una baja proporción en la población viral de cada persona.
Viral Beacon puede arrojar un poco de luz sobre estos temas. Puede contribuir a poner a prueba las hipótesis y desvelar conocimientos ocultos en las vastas cantidades de datos de COVID-19 gracias a sus búsquedas bien definidas. Los equipos científicos pueden analizar rápidamente tanto datos crudos como consensuados para descubrir variantes que, por ejemplo, podrían dar cuenta de diferencias individuales en tropismos celulares o en la respuesta inmune que puede desencadenar fenotipos clínicos más graves.
El equipo busca que este escenario sea una realidad. Babita Singh, miembro del Equipo EGA en el CRG, dice:
‘Ahora buscamos colaboraciones adicionales con expertos en el campo para ayudarnos a extender las funcionalidades de esta herramienta para que Beacon se convierta en una herramienta de búsqueda rápida y fácil de variantes genéticas para COVID y otras enfermedades infecciosas. En el futuro, nuestro objetivo es incluir también información sobre variantes genómicas humanas para estudiar la interacción entre la genómica humana y la viral.’
La arquitectura tras la plataforma — un producto de GA4GH
El Viral Beacon del CRG utiliza el producto GA4GH de la API de Beacon, el principal objetivo del cual es compartir datos genómicos de investigaciones biomédicas sin comprometer la privacidad. ELIXIR hace tiempo que invierte en la generación e implementación de la API de Beacon; este Beacon viral proporciona una extensión fascinante de su uso.
Inicialmente, el GA4GH de la API de Beacon facilitaba el descubrimiento de polimorfismos de nucleótido único (SNP, en sus siglas en inglés), pero desde su concepción, el protocolo ha evolucionado hacia aplicaciones más complejas con un incremento de las funcionalidades.
Hace unos meses, el CRG modificó rápidamente esta herramienta y extendió su arquitectura y funcionalidad para el hallazgo de datos de SARS-CoV-2. El Nodo de ELIXIR España empezó a compilar datos procedentes de secuencias públicas de datos mediante desarrollos específicos (léase el artículo de Galaxy para más detalles).
El producto resultante, el Viral Beacon, permite los hallazgos y los análisis eficientes de la variabilidad genética del SARS-CoV-2, y de datos de COVID-19 asociados, a un ritmo acelerado; un desarrollo crítico en la lucha contra esta pandemia global.
‘El repentino estallido de la pandemia requería el enfoque ‘actuar primero y pensar después’, para desarrollar algo útil que pudiéramos proporcionar fácilmente a la comunidad genómica trabajando en COVID-19 con lo que teníamos a mano. Todavía estamos añadiendo nuevas funcionalidades a la plataforma Beacon y, de hecho, este es el momento adecuado para los expertos en este campo para contribuir y guiarnos en el diseño de plataformas Beacon de patógenos específicos para enfermedades infecciosas’, declara Rambla.
Financiación & Agradecimientos
- Galaxy Project
- European Nucleotide Archive
- GISAID Initiative
- Fundación “la Caixa”
- ELIXIR
- Global Alliance for Genomic Health
- Spanish National Bioinformatics Institute (INB)
- Instituto de Salud Carlos III
- Ministerio de Asuntos Económicos y Transformación Digital — Gobierno de España
- Centre for Genomic Regulation
- Barcelona Supercomputer Center (BSC-CNS)
Viral Beacon: Un far enmig de l’oceà de dades de SARS-CoV-2
La plataforma d’ELIXIR Espanya permet a la comunitat científica navegar a través de la variabilitat del SARS-CoV-2 a nivell del genoma, dels aminoàcids, a nivell estructural y de patrons
En la resposta a una crisi sanitària, les dades juguen un paper crític per a identificar fàrmacs diana, vacunes o símptomes vinculats a la malaltia, i per a comprendre les variacions individuals en resposta a la infecció. Així doncs, les eines, els estàndards i els fluxos de treball computacional per a analitzar aquestes dades juguen un paper fins i tot més prominent. Avui dia, l’anàlisi de dades és sovint multifacètica, combinant dades multi-òmiques amb dades clíniques i fins i tot dades mediambientals. Tanmateix, molts estudis requereixen un enfocament més holístic; per exemple observar petites variacions en els aminoàcids alhora que es revisen els canvis a nivell genòmic.
Un equip bioinformàtic del Centre de Regulació Genòmica (CRG), a Barcelona, i part d’ELIXIR Espanya, ha desenvolupat una plataforma que completa els buits en l’oceà de dades de SARS-CoV-2: COVID-19 Viral Beacon. La plataforma proporciona als equips científics els mitjans per a realitzar anàlisis en profunditat de dades crues i consensuades de COVID-19 a partir de diversos conjunts de dades: European Nucleotide Archive (ENA), Oxford Nanopore, Illumina, NCBI/SRA y GISAID.
¿Què ens ofereix Viral Beacon?
La plataforma es presenta com una finestreta única. Permet als usuaris/àries fer cerques per variants genètiques específiques i explorar les metadades associades. Per exemple, filtrar soques virals d’una regió geogràfica en particular.
Addicionalment, la plataforma ofereix una interfície fàcil d’emprar. Els equips científics poden centrar-se en trobar una resposta a la seva hipòtesi enlloc de submergir-se en tasques massa laborioses com ara descarregar, analitzar i seleccionar dades o dissenyar un programari.
Jordi Rambla, cap de l’Equip EGA al CRG, explica:
‘Hem desenvolupat la plataforma CRG Viral Beacon per a facilitar el flux de coneixement entre investigadors de l’àmbit de la genòmica, epidemiòlegs i amateurs. La plataforma és de fàcil accés per buscar ràpidament informació genòmica sobre el SARS-CoV-2 fins i tot a través dels telèfons mòbils’.
- Consultes sobre SNPs — cerca de polimorfismes de nucleòtid únic (SNPs), insercions o supressions.
- Consultes sobre regions — cerca de totes les variants d’un rang donat de posicions.
- Consultes sobre característiques — cerca de totes les variants en l’anotació genòmica.
- Consultes sobre patrons — cerca de patrons curts en regions genòmiques.
- Consultes sobre aminoàcids — cerca de canvis en aminoàcids en regions proteíniques.
Escenari teòric
Un pacient de COVID-19 desenvolupa símptomes greus i no presenta d’altres factors de risc, tals com obesitat o diabetis. L’equip científic planteja la hipòtesi següent: una variant genètica distinta del virus pot causar una virulència més important.
Tanmateix, la majoria de bases de dades disponibles, com ara GISAID, només proporcionen dades de seqüències consensuades (les més representatives). Aquest enfocament és crucial per a estudis epidemiològics, però oculta variacions individuals que mostren una baixa proporció en la població viral de cada persona.
Viral Beacon pot esclarir aquests temes. Pot contribuir a posar a prova les hipòtesis i revelar coneixements ocults en les vastes quantitats de dades de COVID-19 gràcies a les seves cerques ben definides. Els equips científics poden analitzar ràpidament tant dades crues com consensuades per a descobrir variants que, per exemple, podrien explicar diferències individuals en tropismes cel·lulars o en la resposta immune que pot desencadenar fenotips clínics més greus.
L’equip busca ara que aquest escenari sigui una realitat. Babita Singh, membre de l’Equip EGA al CRG, diu:
‘Ara busquem col·laboracions addicionals amb experts en el camp per ajudar-nos a estendre les funcionalitats d’aquesta eina per a què Beacon es converteixi en una eina de cerca ràpida i fàcil de variants genètiques per COVID i d’altres malalties infeccioses. En el futur, el nostre objectiu és incloure també informació sobre variants genòmiques humanes per estudiar la interacció entre la genòmica humana i la viral.’
L’arquitectura rere la plataforma — un producte de GA4GH
El Viral Beacon del CRG utilitza el producte GA4GH de l’API de Beacon, el principal objectiu del qual és compartir dades genòmiques d’investigacions biomèdiques sense comprometre la privacitat. ELIXIR fa temps que inverteix en la generació i implementació de l’API de Beacon; aquest Beacon viral proporciona una extensió fascinant del seu ús.
Inicialment, el GA4GH de l’API de Beacon facilitava el descobriment de polimorfismes de nucleòtid únic (SNP, en les seves sigles en anglès), però des de la seva concepció, el protocol ha evolucionat cap a aplicacions més complexes amb un increment de les funcionalitats.
Fa uns mesos, el CRG modificà ràpidament aquesta eina i estengué la seva arquitectura i funcionalitat per a descobrir dades de SARS-CoV-2. El Node d’ELIXIR Espanya començà a compilar dades procedents de seqüències públiques de dades mitjançant desenvolupaments específics (llegiu l’article de Galaxy per a més detalls)
El producte resultant, el Viral Beacon, permet les troballes i les anàlisis eficients de la variabilitat genètica del SARS-CoV-2, i de dades de COVID-19 associades, a un ritme accelerat; un desenvolupament crític en la lliuta contra aquesta pandèmia global.
‘El sobtat esclat de la pandèmia requeria l’enfocament ‘actuar primer i pensar després’, per desenvolupar alguna cosa útil que poguéssim proporcionar fàcilment a la comunitat genòmica treballant en COVID-19 amb el que teníem a mà. Encara estem afegint noves funcionalitats a la plataforma Beacon i, de fet, aquest és el moment adequat per als experts en aquest camp per a contribuir i guiar-nos en el disseny de plataformes Beacon de patògens específics per a malalties infeccioses’, declara Rambla.
Finançament & Agraïments
- Galaxy Project
- European Nucleotide Archive
- GISAID Initiative
- Fundación “la Caixa”
- ELIXIR
- Global Alliance for Genomic Health
- Spanish National Bioinformatics Institute (INB)
- Instituto de Salud Carlos III
- Ministerio de Asuntos Económicos y Transformación Digital — Gobierno de España
- Centre for Genomic Regulation
- Barcelona Supercomputer Center (BSC-CNS)