EL EMBL-EBI: la ciencia bioinformática a lo grande

Louisa Wood, Cath Brooksbank, Graham Cameron y Janet Thornton, del Instituto Europeo de Bioinformática. Hinxton, Gran Bretaña.

Durante los últimos cinco años han tenido lugar avances espectaculares en la velocidad, capacidades, y abaratamiento de la tecnología de secuenciación de genomas. Los métodos de alto rendimiento y las herramientas desarrolladas para elucidar descubrimientos significativos de entre los datos generados están revolucionando la biología; sus efectos se hacen notar en todos los campos de la medicina, de la agricultura y de las ciencias medioambientales. Dichas aplicaciones permitirán a la humanidad alcanzar una más profunda comprensión de la variabilidad humana (www.1000genomes.org), desvelar las conexiones existentes entre variantes genéticas y enfermedad (www.wtccc.org.uk), seleccionar cosechas agrícolas en función de su mayor rendimiento y resistencia a las enfermedades, además de catalogar la biodiversidad (www.barcodinglife.org). El Instituto Europeo de Bioinformática (EMBL-EBI), el cual forma parte del European Molecular Biology Laboratory (Laboratorio Europeo de Biología Molecular) mantiene bases de datos gratuitas de importancia universal para la investigación biológica y médica. A continuación, presentaremos una visión general de los principales archivos de datos del EMBL-EBI, organización que proporciona servicios integrados y nuevos tipos de datos a una creciente y cada vez más diversificada base de usuarios.

Al servicio de investigadores de las ciencias de la vida de todo el mundo
Las bases de datos principales del EMBL-EBI (véase Figura 1) pueden ser clasificadas en dos categorías básicas: aquellas que describen los componentes moleculares de los sistemas biológicos (esto es, nucleótidos y secuencias de proteínas, estructuras macromoleculares y pequeñas moléculas), y aquellas que describen sus “conductas” o los resultados de dichas conductas (es decir, transcripción, traducción, e interacción). Además de las bases de datos principales, el EMBL-EBI acoge un gran número de archivos de información especializada. Por vez primera, el EBI posee información (derivada de secuencias y basada en matrices (arrays)) que podrían, en potencia, ser empleadas para identificar individuos. Esto ha requerido de la creación de un repositorio completo, el EGA o European Genome-phenome Archive (véase más abajo) y de la elaboración de nuevos protocolos de acceso a la información que garanticen su seguridad y el cumplimiento con los acuerdos de consentimiento para su uso.


Figura 1. Listado de archivos principales del EMBL-EBI.

Las peticiones de acceso a las exhaustivas bases de datos del EBI son elevadas y además continúan creciendo; la página web del EMBL-EBI recibe una media de 3,5 peticiones al día. Cada mes acceden a la página web unos 300.000 visitantes individuales, haciéndose mensualmente cerca de un millón de trabajos por medio de los servicios web del EMBL-EBI.

De moléculas a sistemas- un recorrido por las bases de datos del EMBL-EBI
Las descripciones y direcciones web de cada una de las bases de datos aquí presentadas son enumeradas al final del artículo (véase tabla 1) junto con los artículos de reseña referenciados en el texto.

Secuencia de nucleótidos y Genomas completos
Las tecnologías de secuenciación de rendimiento ultra alto nos están llevando a acumular cantidades de información antes inimaginables en los archivos públicos de secuencias de nucleótidos.

El EMBL-EBI, en colaboración con el Wellcome Trust Sanger Institute, ha creado el buscador de genomas Ensembl (Flicek et al, 2010). Ensembl contiene más de 50 genomas de cordados, lo cual facilita la navegación por genomas, el análisis, y las comparativas entre especies. En 2009, el EMBL-EBI amplió el sistema Ensembl al resto del árbol taxonómico al presentar Ensembl Genomes (Kersey et al., 2010) el cual se dividía a su vez en cinco nuevas páginas web: Ensembl Bacteria, Ensembl Protista, Ensembl Hongos, Ensembl Plantas y Ensembl Metazoos.

El recientemente presentado Archivo Europeo de Nucleótidos (European Nucleotide Archive, ENA; Leinonen et al., 2010) agrupa en una sóla las principales bases de datos de secuencias, a saber: el European Trace Archive, el EMBL Nucleotide Sequence Database (EMBL-Bank) y el Sequence Read Archive. El ENA se compone de tres partes: ENA-Annotation para una anotación funcional detallada de la secuencia de codificación; ENA-Assembly para el almacenamiento de secuencias ensambladas, y el ENA-Reads para el almacenamiento de información de rastreo de secuencia (tanto de rastreo de secuencias capilar como de lecturas de nueva generación).

Aquellos que participan en proyectos de investigación médica o genética dan por lo general su consentimiento a que su información sea empleada para la investigación pero no para que sea distribuida públicamente. El European Genome–phenome Archive (EGA; www.ebi.ac.uk/Information/Brochures/pdf/EGA_May10.pdf) proporciona un sistema seguro de archivo, procesado y distribución que respeta los consentimientos originales al mismo tiempo que proporciona acceso a la información a los investigadores. A mediados de 2010, el EGA contiene datos de experimentos entre los que se incluyen estudios caso-control, estudios de secuenciación de cáncer y estudios con poblaciones de más de 50.000 individuos. El EGA puede integrar los datos con otros archivos del EMBL-EBI, como por ejemplo proporcionando una anotación genómica completa vía Ensembl para las variantes que muestren una asociación significativa con el fenotipo estudiado, o enlaces con ArrayExpress para acceder a información de expresión procedente de los miembros de la misma cohorte.

Expresión de genes y datos sobre micromatrices (microarrays)
Los estudios de expresión genómica que originalmente empleaban micromatrices (microarrays) y más recientemente secuenciación de alto rendimiento, pueden responder tanto a preguntas específicas (por ejemplo, qué genes se expresan diferencialmente en un hígado sano en comparación a uno enfermo) o proveer de conjuntos de información de referencia (esto es, comparando las pautas de expresión de genes en diferentes tejidos, o durante diferentes fases de su desarrollo). Los archivos de información de expresión a gran escala pueden emplearse para contestar preguntas no relacionadas con el propósito del estudio original. Por ejemplo, un análisis que revele genes expresados diferencialmente de un tipo de cáncer particular también podría revelar genes candidatos para un desarrollo terapéutico, o arrojar luz sobre los mecanismos regulatorios perturbados por ese tipo de cáncer.

El ArrayExpress Archive (Parkinson et al., 2009) es un repositorio de libre acceso que cumple con todos los estándares de pruebas de transcripción genómica de alto rendimiento. Puede hallarse allí información sobre más de 10.000 pruebas de este archivo, para el cual el Gene Expression Atlas del EMBL-EBI (GXA; Kapushesky et al, 2010) proporciona un interfaz simplificado con el que buscar información. Los usuarios pueden realizar búsquedas centradas en genes con el fin de descubrir bajo qué condiciones (o en qué lugar del organismo) se expresa diferencialmente un gen de interés. Alternativamente, pueden realizar búsquedas en base a las condiciones, para descubrir qué genes se expresan diferencialmente en una condición o lugar concretos. Ambos tipos de búsqueda pueden combinarse para centrarse en un gen en particular y en el papel que lleva a cabo bajo condiciones específicas; por ejemplo, el GXA hace muy fácil buscar los miembros de la ruta de señalización del Wnt que se expresan en el adenocarcinoma colorrectal.

Secuencia proteínica, familias, dominios y proteómica
Después de secuenciar genomas completos el siguiente paso lógico era caracterizar el conjunto completo de genes codificadores de proteínas. En septiembre de 2009 se hizo público un primer borrador del proteoma humano, el cual comprendía 20.325 secuencias codificadoras de proteínas.

UniProt (Consorcio UniProt, 2010) es la base de datos mundialmente reconocida como el archivo de “calidad suprema” de información sobre proteínas. La base de datos UniProt proporciona información introducida manualmente sobre proteínas muy conocidas (UniProtKB/Swiss-Prot), e información anotada automáticamente sobre secuencias de proteínas procedentes en su mayor parte de la ENA (UniProtKB/TrEMBL).

UniProt se halla plenamente integrada con PRIDE (Vizcaíno et al, 2010), que es la base de datos del EMBL-EBI que cumple con todos los estándares para proteómica basada en espectometrías de masa. Esto permite emplear la información de PRIDE para anotar entradas de proteínas de UniProt.

Las familias y dominios de proteínas son indicadores invaluables que ayudan a los biólogos a hallar proteínas con parentescos remotos y a predecir sus funciones. InterPro (Hunter et al, 2009) es una base de datos integrada de familias de proteínas, dominios y puntos funcionales. Al unir bases de datos de los distintos miembros (bases de datos que emplean diversas metodologías y tipos de información biológica), InterPro proporciona una potente herramienta de diagnóstico integrado para la clasificación de secuencias de proteínas.

Estructuras
Las estructuras tridimensionales nos dan una visión mecánica de cómo funcionan las macromoléculas, y nos ayudan a explicar cómo sus funciones son modificadas por mutaciones o por interacciones con pequeñas moléculas. A medida que los estudios de genómica estructural comienzan a dar sus frutos, resulta esencial contar con un acceso eficaz a métodos estandarizados de examen y descripción de estructuras de proteínas tales como los proporcionados por el Protein Databank in Europe (PDBe; Velankar et al, 2010).

Pequeñas moléculas
Comprender el papel de las “pequeñas moléculas” biológicamente relevantes (esto es, que no estén codificadas directamente con el genoma) es un importante paso para elucidar todos los procesos de la vida. La base de datos ChEBI (de Matos et al., 2010) proporciona descripciones estandarizadas de moléculas las cuales permiten a otras bases de datos anotar sus entradas sistemáticamente, y cubre el hueco existente entre pequeñas moléculas y las macromoléculas con las que aquellas interactúan en los sistemas vitales.

La secuencia del genoma humano proporciona una completa “lista de piezas” moleculares a aquellos investigadores interesados en la mejora de la salud humana. Una tarea clave es la de catalogar como los productos de los genes interactúan con medicamentos y con moléculas similares a medicamentos. El ChEMBL (www.ebi.ac.uk/Information/ Brochures/pdf/ChEMBL_May10.pdf) es una base de datos de quimiogenómica sobre moléculas similares a medicamentos la cual unifica información sobre química, bioactividad y genómica con el fin de facilitar la traducción de la información genómica en nuevos medicamentos eficaces.

Interacciones, vías y sistemas
Las interacciones moleculares son una valiosa fuente de información para elucidar las funciones celulares. IntAct proporciona un repositorio central y de público acceso con información sobre dichas interacciones, incluyendo interacciones proteína-proteína, proteína-pequeña molécula y proteína-ácido nucleico (Aranda et al, 2010).

La vida al nivel molecular está formada por una intrincada red de vías y de reacciones bioquímicas. Los biólogos se han dedicado durante un siglo a elucidar fragmentos de dicha red, pero una enorme cantidad de ese conocimiento está disperso y está en su mayor parte inaccesible a la investigación por medio de computadoras. Reactome (Matthews et al., 2009) es una base de datos gratuita, online, de código abierto y mantenida manualmente que presenta información de investigaciones llevadas a cabo por expertos biólogos. Asimismo, también está integrada con una amplia serie de otras bases de datos de bioinformática.

Fortaleza a través de la colaboración
Todos nuestros archivos de datos principales son el producto de la cooperación y de colaboraciones internacionales. Trabajamos conjuntamente con otros proveedores de datos con el fin de asegurar que nuestros repositorios de información, y los de nuestros colaboradores, sean exhaustivos y que estén actualizados. Por ejemplo:

  • Los datos de la ENA está siendo producidos como parte de la International Nucleotide Sequence Database Collaboration que asocia a la GenBank de EE. UU. con la DNA Databank del Japón.
  • El ArrayExpress Archive importa información semanalmente del Gene Expression Omnibus del National Centre for Biotechnology Information de los EE. UU.
  • El UniProt es producido por el Consorcio UniProt, fruto de una colaboración entre el EMBL-EBI, el Instituto Suizo de Bioinformática y el Archivo de Información de Proteínas.
  • El PDBe es el socio europeo de la worldwide Protein Databank (wwPDB; Berman et al., 2007) la cual mantiene un repositorio compartido de datos de estructuras bio-macromoleculares.
  • Reactome es producido en colaboración entre el EMBL-EBI, el Ontario Institute for Cancer Research, la New York University Medical Center y el laboratorio de Cold Spring Harbor.

Nuestra organización también participa activamente en esfuerzos internacionales conjuntos para desarrollar estándares de datos de bioinformática, esfuerzos en los cuales facilitamos el intercambio, integración y reutilización de datos.

Desafíos y oportunidades futuras
La era de la genómica ha revolucionado la investigación biomédica al permitir a la comunidad investigadora plantear cuestiones a escala de todo el genoma. Los nuevos métodos de secuenciación del ADN nos dotan de la tecnología con la que secuenciar genomas individuales, cuantificar la expresión, estudiar el progreso del cáncer y medir las respuestas del paciente a las terapias. La transformación de todo este conocimiento en mejoras en el bienestar y en la salud humana dependerá decisivamente de la aplicación de métodos de computación a esos enormes repositorios de datos.

Los experimentos biológicos están generando datos a un ritmo comparable al de los experimentos de astrofísica o de física de partículas. Además de su impacto sobre la investigación, la era de la genómica también ha necesitado de nuevos mecanismos con los que compartir, acceder, suministrar y analizar la información. El acceso a la información es un requisito esencial para convertir dicha información en aplicaciones a gran escala de las oportunidades descritas anteriormente. Los archivos de datos biológicos se hallarán siempre en el corazón de cada nuevo descubrimiento y de sus aplicaciones, por lo que Europa deberá construir una nueva infraestructura con la que apoyar semejante empresa.

El EMBL-EBI está coordinando ELIXIR, un nuevo proyecto en fase de preparación de infraestructura europea de apoyo a archivos de datos, centros de biocomputación, integración de datos, servicio y herramientas de software, enseñanza y desarrollo de estándares (www.elixir-europe.org). Creemos firmemente que esta infraestructura debe permanecer firmemente anclada en los principios de acceso libre y de colaboración internacional que han permitido a la investigación post-genómica avanzar a un ritmo tan impresionante.

Fuentes del EMBL-EBI referenciadas


Tabla 1. Listado de archivos principales del EMBL-EBI.

Notas
Aranda, B. et al. (2010) The IntAct Molecular Interaction Database in 2010. Nucleic Acids Res., 38, D525-D531.
http://nar.oxfordjournals.org/cgi/content/short/38/suppl_1/D525

Berman,H. et al. (2007) The worldwide Protein Data Bank (wwPDB): ensuring a single, uniform archive of PDB data. Nucleic Acids Res., 35, D301–D303.
http://nar.oxfordjournals.org/cgi/content/full/gkl971

de Matos,P. et al. (2010) Chemical Entities of Biological Interest (ChEBI): an update. Nucleic Acids Res., 38, D249-D254.
http://nar.oxfordjournals.org/cgi/content/abstract/38/suppl_1/D249

Flicek,P. et al. (2010) Ensembl’s tenth year. Nucleic Acids Res., 38, D557-D562.
http://nar.oxfordjournals.org/cgi/content/abstract/38/suppl_1/D557

Hunter,S. et al. (2009) InterPro: the integrative protein signature database. Nucleic Acids Res. 37, D211–215.
http://nar.oxfordjournals.org/cgi/content/full/37/suppl_1/D211

Kapushesky,M. et al. (2010) Gene Expression Atlas at the European Bioinformatics Institute. Nucleic Acids Res., 38, D690–D698.
http://nar.oxfordjournals.org/cgi/content/abstract/38/suppl_1/D690

Kersey,P.J. et al. (2010) Ensembl Genomes: Extending Ensembl across the Taxonomic Space. Nucleic Acids Res., 38, D563–D569.
http://nar.oxfordjournals.org/cgi/content/abstract/38/suppl_1/D563

Leinonen,R. et al. (2010) Improvements to services at the European Nucleotide Archive. Nucleic Acids Res., 38, D39–D45.
http://nar.oxfordjournals.org/cgi/content/abstract/38/suppl_1/D39

Matthews,L. et al. (2009) Reactome knowledgebase of human biological pathways and processes. Nucleic Acids Res., 37, D619–622.
http://nar.oxfordjournals.org/cgi/content/full/gkn863?ijkey=sVeuauFiBaN9VhL&keytype=ref

Parkinson, H. et al. (2009) ArrayExpress update—from an archive of functional genomics experiments to the atlas of gene expression. Nucleic Acids Res., 37, D868–872.
http://nar.oxfordjournals.org/cgi/content/short/37/suppl_1/D868

The UniProt Consortium (2010) The Universal Protein Resource (UniProt) in 2010. Nucleic Acids Res., 38, D142–D148.
http://nar.oxfordjournals.org/cgi/content/abstract/38/suppl_1/D142

Velankar,S. et al. (2010) PDBe: Protein Databank in Europe. Nucleic Acids Res., 38: D308–D317
http://nar.oxfordjournals.org/cgi/content/abstract/38/suppl_1/D308

Vizcaíno,J.A. et al. (2010) The Proteomics Identifications (PRIDE) database: 2010 update. Nucleic Acids Res., 38, D736–D742.
http://nar.oxfordjournals.org/cgi/content/abstract/38/suppl_1/D736