El proyecto ENCODE, catalogando el genoma humano

Alfonso Valencia Centro Nacional de Investigaciones Oncológicas, Instituto Nacional de Bioinformática, INB-ISCIII Roderic Guigó Centro de Regulación Genómica, Universitat Pompeu Fabra, Instituto Nacional de Bioinformática-ISCIII

ENCODE es un gran esfuerzo coral financiado por el NHGRI-NIH (National Human Genome Research Institute del Instituto de Salud americano) para catalogar y descifrar el funcionamiento de los elementos informativos del genoma humano. ENCODE (the ENCyclopedia Of DNA Elements consortium, [1, 2]) comenzó con una primera fase piloto (2003–2006) en la que se pusieron las bases de la organización, sistemática de análisis y tecnología. En esta fase piloto se analizó el 1% del genoma humano, incluyendo un conjunto de regiones seleccionadas por su interés biológico junto a otras consideradas representativas del resto del genoma. Estos resultados fueron expuestos en varias publicaciones alrededor de la publicación central en la revista Nature [3].

Esta fase piloto fue seguida entre 2007 y 2011 por un conjunto de proyectos para cubrir al completo el genoma humano, generando datos de modo sistemático y con una gestión integrada de los mismos. Esta fase concluyó con la publicación de los resultados en 2012 (ver [4] para un índice temático de todas las publicaciones), en lo que se consideró uno de los hitos científicos del año.

En una nueva fase ENCODE continua asentado en siete proyectos, dotados cada uno con aproximadamente 10 millones de dólares estadounidenses, que incluyen como temas centrales la reconstrucción de la estructura de la cromatina y su papel en la regulación de la expresión génica, el mapeo de los sitios de unión de factores de transcripción, la identificación de las modificaciones de histonas y metilación de DNA, la identificación de transcriptos de RNA codificantes para proteínas y no codificantes y la resolución de sitios de unión de proteínas reguladoras de la actividad de los RNA mensajeros. A estos proyectos centrales se unen otros 20 proyectos, con especial énfasis en el análisis coordinado de los datos (para una lista completa de proyectos ver [5])

En las distintas fases de ENCODE han participado más de 400 científicos de más de 30 laboratorios incluyendo un pequeño número de grupos europeos, entre los que nos encontramos. Alfonso Valencia ([6]) en el proyecto GENCODE [7] dedicado al mapeo de características genómica (cartografía genómica) y el grupo de Roderic Guigó ([8]), que participa también en GENCODE y tiene un papel muy destacado en el proyecto sobre identificación y caracterización de RNAs en compartimentos celulares usando técnicas de secuenciación masiva.

Ambos grupos están particularmente interesados en descifrar cómo, a partir de la secuencia lineal del DNA de los genes, se producen RNAs que contienen combinaciones específicas de los mismos, en un proceso que se denomina “splicing” y que ahora sabemos que está relacionado con enfermedades humanas, incluyendo el cáncer [9]. El grupo de R. Guigó se está centrando en resolver estructura de los RNA producidos y caracterizar las muchas variantes del proceso de producción de RNAs, que dan lugar no solo RNA mensajeros que codifican para proteínas, sino a todo una nueva clase de RNAs que no-codifican para proteínas. El grupo de A. Valencia centra sus esfuerzos en la caracterización y anotación de la variedad de proteínas que se producen a partir de este proceso de ensamblado.

Desde un punto de vista pragmático, ENCODE puede considerarse como un esfuerzo masivo para generar de modo sistemático datos fiables sobre los elementos informativos en el genoma. Un esfuerzo que, por una parte, implica el establecer protocolos y standards de calidad, y por otra requiere hacer que la información generada (datos y métodos de análisis) sean fácilmente accesible. Es importante destacar que el mandato del NIH es que todos los datos sean libremente accesibles al tiempo de su generación. Esta filosofía, heredada del proyecto de secuenciación del genoma humano, es uno de los elementos que ha contribuido de modo fundamental al desarrollo de la genómica.

Desde esta perspectiva pragmática, los datos de ENCODE son accesibles como una gran tabla de datos con tres líneas celulares para las que se han completado una batería de experimentos ( DNAseq, ChIP-seq, DNase-seq, FAIRE-seq and RNAseq) experimentos y otras 147 cell types para los que se han realizado solo algunos de estos experimentos [10]. Hasta el 2012 ENCODE había realizado más de 1640 experimentos y 5 x 1012 bases secuencias. Para que esta información masiva sea útil ENCODE publicó una guía de uso [11] y desarrolló un conjunto de métodos (máquinas virtuales) que permiten aplicar los métodos desarrollados por el consorcio para reproducir los resultados publicados [12].

A modo de ejemplo, podemos decir que durante los dos últimos años ENCODE ha sido una referencia suficiente para el análisis de todos los datos genómicos generados por los grupos del CNIO [13]. Es decir, ENCODE proporciona el marco de referencia necesario para contrastar los experimentos que los laboratorios individuales realizan en temas de genómica.

Es importante no olvidar que ENCODE no es sólo generación de datos. El núcleo de ENCODE son los sistemas capaces de organizar, integrar y analizar los datos generados por el proyecto. Es más, ENCODE debe entenderse como un proyecto científico en sí mismo. Las publicaciones de ENCODE recogen nuevos conceptos, hipótesis y modelos sobre el funcionamiento del genoma humano. En este sentido, alguno de los resultados más destacados de ENCODE pueden ser: la elaboración de los primeros mapas de alta resolución de los motivos de reconocimiento en el DNA que utilizan las distintas proteínas que controlan la expresión de los genes, la detección de una mapa completo de interacción entre factores de transcripción con la propuesta de asociaciones positivas y negativas en su actividad conjunta sobre la expresión génica, y la caracterización del tipo de organización genómica (modificaciones de la cromatina) en los sitios de unión de factores de transcripción y la propuesta de una relación específica entre mutaciones genéticas y regiones funcionales del genoma, con las posibles implicaciones para la interpretación de mutaciones relacionadas con enfermedades. Mientras que todas estas y otras observaciones pueden no ser completamente originales, ENCODE contribuye decisivamente a situarlas en un marco general y representativo.

Junto a todos estos nuevos resultados y modelos, quizás la observación con más repercusiones es la propuesta de que muchas regiones del genoma que no están asociadas a la producción de proteínas y para las que no se conocían funciones específicas, están conservadas evolutivamente. Estas regiones, que podrían incluir hasta el 70% del genoma humano, pueden tener una papel funcional como parte del sofisticado sistema de control de la expresión génica de los organismos superiores.

Finalmente ENCODE es también, y todos los proyectos tiene que serlo como parte del retorno de la ciencia a la sociedad que la financia, un escaparate público. Las publicaciones de ENCODE en 2012 tuvieron un inmediato y considerable impacto mediático [14, 15, 16, 17].

Un impacto que puso a ENCODE en el epicentro de una controversia sobre el valor de los grandes proyectos respecto a la financiación de proyectos de grupos individuales. Una controversia que no puede considerarse sorprendente a la vista de las generalizadas restricciones de financiación.

En paralelo, con la discusión de estos aspectos bio-políticos, sea discutido también el grado en que ENCODE demuestra, o no, que el genoma que no codifica para proteínas tiene funciones especificas, en su caso fracción del genoma tiene este tipo de funciones reguladoras y si este puede considerarse propiamente un “descubrimiento” de ENCODE [18,19]. Una discusión que está más relacionada con poco afortunadas notas de prensa de algunas organizaciones participantes en ENCODE, que con los propios resultados científicos publicados por ENCODE.

Mientras que ENCODE continua generando datos sobre la organización del genoma en líneas celulares y tejidos humanos, otros proyectos de gran escala generan datos complementarios. El proyecto modENCODE [20], está generando datos similares a los de ENCODE para un número de especies seleccionadas. El proyecto de los 1000 genomas está dedicado a compilar información sobre variación en genomas normales, con especial atención a la variación de pequeña escala [21]. El International Cancer Genome Consortium (ICGC, [22]) se propone completar el primer mapa genómico de numerosos tipos de cáncer y el consorcio internacional de epigenómica (IHEC, [23]) tiene como objetivo complementar los datos sobre marcadores epigenéticos, tales como metilación de DNA, modificación de histonas o estructura tridimensional del DNA en el núcleo celular. Los dos grupos españoles participantes en ENCODE también son parte activa estos dos proyectos y colaboran con otros grupos del país en la generación análisis de datos, incluyendo el Centro Nacional de Análisis Genómico, CNAG [24] y el Barcelona Supercomputing Centre, BSC [25]). Una actividad que es en buena medida soportada por el Instituto Nacional de Bioinformática (INB-ISCIII, [26]).

Referencias

1. http://www.genome.gov/10005107

2. http://en.wikipedia.org/wiki/ENCODE

3. http://www.nature.com/nature/journal/v447/n7146/full/nature05874.html

4. http://www.nature.com/encode/#/threads

5. http://www.genome.gov/26525220

6. www.cnio.es

7. http://www.gencodegenes.org

8. http://pasteur.crg.es/portal/page/portal/Internet/

9. http://www.ncbi.nlm.nih.gov/pubmed/22158541

10. https://genome.ucsc.edu/ENCODE/dataMatrix/encodeDataMatrixHuman.html

11. http://www.plosbiology.org/article/info%3Adoi%2F10.1371%2Fjournal.pbio.1001046

12. http://scofield.bx.psu.edu/~dannon/encodevm/

13. David G. Pisano, comunicación personal
http://www.cnio.es/ing/grupos/plantillas/curriculum.asp?pag=752

14. http://elpais.com/diario/2007/06/19/salud/1182204001_850215.html

15. http://elpais.com/elpais/2012/09/08/opinion/1347129834_021466.html

16. http://www.theguardian.com/science/2012/sep/05/genes-genome-junk-dna-encode

17.http://www.nytimes.com/2012/09/06/science/far-from-junk-dna-dark-matter-proves-crucial-to-health.html?pagewanted=all&_r=0

18. http://gbe.oxfordjournals.org/content/5/3/578.long

19. http://biorxiv.org/content/early/2013/11/18/000588

20. http://www.modencode.org

21. http://www.1000genomes.org

22. https://icgc.org

23. http://www.ihec-epigenomes.org

24. http://www.cnag.cat

25. http://www.bsc.es

26. http://www.inab.org