¿Para qué sirve el genoma no-codificante?

José Luis Gómez SkarmetaCentro Andaluz de Biología del Desarrollo, CSIC-Universidad Pablo de Olavide, Sevilla.

Resumen
En los genomas de vertebrados sólo el 5% del ADN se corresponde con secuencias que codifican proteínas. ¿Cuál es la función del 95% ADN no-codificante restante? Parte de este ADN contiene secuencias cis-reguladoras que controlan cuando, cuanto y donde un gen se va a transcribir. A pesar de la evidencias cada vez mayor de la función fundamental del ADN cis-regulador en el desarrollo, la evolución y las enfermedades humanas, tenemos aún un gran problema: mientras que el código de las secuencias codificantes de las proteínas se conoce, el lenguaje del ADN regulador es en gran medida desconocido. Esto impide la identificación de las regiones reguladoras en los genomas secuenciados. Por lo tanto, una vez que las secuencias de los genomas están disponibles, uno de los mayores objetivos para los próximos años es el identificar, caracterizar y descifrar el ADN regulador en el mar de ADN no-codificante.

Conceptos
El genoma humano contiene unos 30.000 genes. Se consideran genes las regiones del genoma que codifican para proteínas, esto es, las regiones que se transcriben para generar ARN mensajeros que luego se traducen en proteínas en los ribosomas. De media, los genes tienen un tamaño de 3.000 nucleótidos o bases. Teniendo en cuenta que el total del genoma asciende a 3.164,7 millones de bases, la suma de todos los genes supone sólo un 2% del genoma. Por tanto, el 98% del genoma humano es ADN no-codificante, o lo que es lo mismo, no contiene información relevante para la síntesis de proteínas.

En su gran mayoría, se desconoce la función del ADN no-codificante, aunque se sabe que en él se localiza el ADN regulador. Éste consiste en regiones del ADN (también llamadas regiones reguladoras) que controlan cuánto, cuándo y dónde se produce el proceso de transcripción de un gen. Este control de la transcripción o, lo que es lo mismo, de la expresión génica, llevado a cabo por las regiones reguladoras es fundamental para la diferenciación celular. Así, a pesar de que todas las células de un individuo contengan el mismo genoma, lo que hace que un tipo celular sea distinto de otro es el conjunto específico de genes activos que se expresan en cada célula. Para ello, en cada tipo celular se transcribe sólo una fracción de esos 30.000 genes. De este modo, tipos celulares muy distintos como, por ejemplo, una célula del páncreas y otra del corazón, activan un subconjunto altamente especializado de genes y en gran medida diferente entre ambas células y del de otros tipos celulares. A pesar del papel fundamental del ADN regulador en el control de la expresión génica, su identificación en el genoma es extremadamente difícil. El principal motivo es que su código o lenguaje es desconocido. Esto contrasta con las regiones codificantes cuyo código genético es perfectamente conocido (por ejemplo ATG codifica para el aminoácido metionina), gracias en parte al trabajo del premio Nobel Severo Ochoa que ayudó a descifrarlo, hace ya más de cuatro décadas. De hecho, la estimación actual sobre el número de genes en el genoma de humano de 30.000, se basa en parte en la capacidad de predecir la existencia de genes basándose en dicho código genético. Esto es imposible para las regiones reguladoras, lo que hace difícil actualmente predecir dónde se localizan esas regiones en el genoma y cuál es la información que contienen.

Una región reguladora está formada por un fragmento de ADN no-codificante de tamaño variable (entre unas pocas bases y cientos de ellas) al que se unen, dependiendo del tamaño, unos pocos o un gran número de factores de transcripción. En los casos en que la unión de dichos factores a la región reguladora favorece la transcripción de un gen, se le denomina potenciador o enhancer. Si por el contrario la impide, a la región reguladora se le denomina silenciador o silencer.

Los genes contienen regiones de ADN llamadas promotores, que controlan el inicio de la transcripción, ya que son los lugares donde se une la ARN polimerasa para iniciar la transcripción. Las regiones reguladoras modulan la expresión génica interactuando con los promotores de los genes. Así, los enhancers o los silencers potencian o previenen el reclutamiento de la ARN polimerasa al promotor de un gen, favoreciendo o bloqueando la transcripción génica. A las regiones reguladoras se les denomina elementos en cis (o cis-reguladores) ya que están en la misma cadena de ADN que los genes. A los factores de transcripción que se unen a los elementos cis-reguladores se les denomina reguladores en trans. Así, la configuración-cis de un gen consiste en el conjunto de regiones reguladoras que operan sobre él.


Figura 1:
En esta figura se representan un gen A (verde oscuro) y un complejo génico B de tres genes (flechas azules oscuras) contiguos en el genoma. Los puntos rojos representan aisladores (Insulators, I) mientras que los rectángulos son regiones reguladoras. El rectángulo verde es un enhancer (E) del gen A, mientras que los rectángulos azules claros son regiones reguladoras de los genes del complejo B (E, enhancer; S, silencers). Los distintos colores encuadrando los diferentes elementos reguladores representan su actividad en diferentes tipos celulares. Los aisladores generan dos paisajes reguladores distintos , uno pequeño entorno al promotor del gene A donde se encuentra el elemento regulador asociado a este gen, y el otro abarcando desde el primer intron del gen A hasta el final del complejo B y que contiene el resto de elementos reguladores en azul claro. El elemento regulador encuadrado en rosa y localizado en el segundo intron del gen A activa a larga distancia a los tres genes del complejo A y por ello se denomina Locus Control Region (LCR). El aislador (I) en el primer intron del gen A impide que este LCR active también a este gen. El elemento regulador entre el gen A y el complejo génico B es un enhancer (E) específico del primer gen del complejo, mientras que los otros dos elementos reguladores de la derecha son silencers (S) específicos para cada uno de los dos otros genes restantes.

Un aspecto característico de las regiones reguladoras es su modularidad. En general, cada región reguladora controla la expresión de un gen en un reducido número de tejidos u órganos. Por tanto, genes que se expresan en muchos tejidos y órganos, y en distintos momentos del desarrollo embrionario, contienen múltiples elementos cis-reguladores. Cada uno de ellos es un módulo independiente para controlar la expresión en unos pocos territorios. De esta forma, los genes con patrones de expresión sencillos (un tejido muy definido o simplemente en todas las células del organismo) suelen tener muy pocos elementos reguladores y localizados en regiones próximas al promotor. Por el contrario, los genes con patrones de expresión complejos contienen muchos elementos cis-reguladores dispersos a lo largo del ADN no-codificante tanto en la vecindad del gen como a distancias de hasta cientos de kilobases. A estos elementos cis-reguladores localizados en regiones genómicas lejanas del promotor se les denomina elementos distales. En muchos casos, este tipo de genes (a menudo implicados en el desarrollo temprano del embrión), están flanqueados por grandes regiones de ADN no-codificantes en las cuales no reside ningún otro gen. Estas regiones también conocidas como desiertos génicos están plagadas de regiones cis-reguladoras esenciales para controlar la expresión del gen en múltiples tejidos y en distintos momentos.

Si las regiones reguladoras se localizan en zonas intergénicas ¿cómo se organiza el genoma para que unas regiones actúen sobre un determinado gen y no sobre el vecino?
Para ello existen las regiones reguladoras denominadas aisladores. Estas tienen dos funciones, la de prevenir que un enhancer actúe sobre un promotor cuando el aislador se localiza entre estos dos elementos y la de impedir la expansión de la heterocromatina sobre un locus determinado, y con ello el silenciamiento de su expresión. Los aisladores son, por tanto, elementos esenciales del genoma para generar compartimentos con entornos reguladores diferentes para genes vecinos. De esta forma, dos genes contiguos en el genoma, si están separados por aisladores, pueden estar bajo la influencia de un conjunto de elementos cis-reguladores totalmente diferentes, o como se dice en la jerga genómica, estos genes “ven” paisajes reguladores diferentes.

¿Como se pueden identificar los elementos cis-reguladores en el genoma?
Actualmente, la forma de identificar regiones cis-reguladoras es a través de una combinación de análisis bioinformáticos, estudios funcionales utilizando técnicas de transgénesis en diferentes animales modelo, utilización de marcas epigenéticas determinadas y la identificación de sitios de unión de factores de transcripción a nivel genómico en distintos modelos animales. Así, utilizando herramientas bioinformáticas para comparar los genomas de distintos vertebrados secuenciados, se ha podido observar la presencia de una gran cantidad de regiones no-codificantes altamente conservadas presentes en los genomas de vertebrados. La gran mayoría de estas regiones flanquean genes implicados en generación de patrones morfológicos durante el desarrollo embrionario y funcionan como enhancers en ensayos de transgénesis en animales modelo.

Una importante iniciativa en curso para identificar todos los elementos funcionales en la secuencia del genoma humano es el proyecto ENCODE (Enciclopedia de Elementos de ADN), iniciado por el National Human Genome Research Institute (NHGRI). Este proyecto utiliza ensayos de inmunoprecipitación de cromatina seguida de secuenciación de alto rendimiento (Chip-seq), para identificar en la totalidad del genoma sitios de unión de diferentes factores de transcripción, diferentes modificaciones de histonas (marcas epigenéticas), sitios hipersensibles a DNAsaI, etc. A partir de estos y otros estudios, se ha demostrado que diferentes marcas epigenética pueden ayudar a identificar elementos enhancers del genoma]. Así, la trimetilacion de la histona H3 en la Lisina 4 (H3K4me3) esta asociada a promotores activos, mientras que la monometilacion del mismo residuo (H3K4me1) está asociada a promotores y a enhancers. Más aún, de éstos, los activos se detectan por una acetilación adicional de la misma histona en la Lisina 27 (H3K27ac). Esta combinación de marcas (H3K4me1, H3H27ac) junto con o la unión de la acetil-transferasa p300 responsable de la acetilación en K27, ha permitido la predicción eficiente de enhancers activos en el desarrollo temprano de ratones y humanos. La realización de este tipo de estudios en determinados tejidos o momentos del desarrollo, acoplando ensayos genómicos de Chip-seq de factores de transcripción esenciales para determinados procesos biológicos, la comparación de secuencias del genoma, y el análisis funcional de potenciales elementos cis-reguladores y de sus genes dianas, permiten identificar eficientemente distintos elementos cis-reguladores del genoma.

Regiones reguladoras y enfermedades
La regulación de los genes no sólo es crucial para el desarrollo, sino también es esencial para el control de la fisiología de las células en los organismos adultos. Por lo tanto, no es sorprendente que en una fracción importante de los numerosos estudios de asociación de enfermedades a regiones del genoma que se están publicando en los últimos años, las lesiones asociadas a dichas enfermedades genéticas humanas se localicen en el ADN no codificante. En muchos de estos casos, dichas lesiones afectarán regiones reguladoras esenciales para controlar correctamente genes diana situados en la vecindad de estas zonas del genoma. Cuando esto ocurre, el tejido, el tiempo o la cantidad en que se produce el ARNm del gen diana, y por lo tanto la proteína, es anormal, causando una predisposición a padecer una enfermedad o directamente una enfermedad, dependiendo del gene y la lesión asociada.

Un caso muy bien documentado de una enfermedad genética en humanos asociada a una mutación en un enhancer que además está localizado en una región no-codificante altamente conservada, es la sinpolidactilia. En esta enfermedad el gen afectado es Sonic Hedgehog (SHH). Así, un elemento regulador localizado dentro de un intrón del gen Lmbr1, a una megabase de distancia del transcrito de Shh, es necesario para activar la expresión de Shh en la extremidad en desarrollo en el ratón. La eliminación de esta región por recombinación homóloga en el ratón suprime la expresión de Shh en el primordio de pata lo que impide el correcto desarrollo de las extremidades. En humanos y en ratón, mutaciones puntuales en dicho elemento regulador modifican su actividad causando polidactilia.

El número de enfermedades en humanos causada por mutaciones en regiones cis-reguladoras se ha incrementado exponencialmente en los últimos años de forma que hoy se puede considerar que un importante porcentaje de las enfermedades humanas se deben a alteraciones en el ADN no-codificante.

Figura 2:
Vista de una región de 1,15 megabases del genoma humano, donde se localiza el gen SHH, utilizando en visualizador de genomas UCSC Genome Browser. En esta región se visualiza las posiciones de distintas marcas epigenéticas características de enhancers (H2K4me1 y H3K27ac), de promotores activos (H3K4me3) y los sitios de unión de tres factores de transcripción (BAFT, PAX5 y PU.1) obtenidas en diferentes líneas celulares por el consorcio ENCODE. Abajo se muestra las regiones cuyas secuencias están conservadas evolutivamente en diferentes especies. En verde esta encuadrado la region no-codificante conservada en todos los vertebrados que contiene el enhancer que activa la expresión de Shh en el primordio de pata y que está mutado en pacientes con sinpolidactilia. Nótese que este enhancer se encuentra a 1 megabase de distancia de su gen diana.


Regiones reguladoras y evolución
La gran mayoría de las proteínas codificadas por estos genes en vertebrados están altamente conservadas en todas las especies. ¿Cómo ha surgido entonces la diversidad morfológica durante la evolución? Actualmente, la teoría genética de la evolución morfológica propone que las variaciones morfológicas entre especies se deben, en gran medida, a alteración en la expresión de gene funcionalmente conservados. Estos cambios se producen a través de mutaciones en las secuencias cis-reguladoras, tanto de genes reguladores del desarrollo con funciones pleiotrópicas, como de sus genes diana en las redes génicas en las que participan. Así, el plan corporal común a todos los vertebrados, que se manifiesta durante las etapas tempranas del desarrollo, sería el resultado de una expresión similar de los genes reguladores del desarrollo que operan durante esta fase embrionaria. Una vez especificado este plan corporal, en estadios más tardíos del desarrollo, las diferencias en la expresión del mismo conjunto de genes reguladores generaría los diversos cambios morfológicos que se observan entre las especies dentro del linaje de los vertebrados. Por lo tanto, la evolución es en gran medida la historia de la evolución de la regulación de la expresión génica durante el desarrollo

Conclusión
En resumen, nuestro conocimiento del genoma humano es hoy en día muy reducido, y en la próxima década gran parte del esfuerzo se dedicará a descifrar el significado de este 95% del ADN no-codificante. Esto nos permitirá poder identificar y comprender las funciones de las distintas regiones reguladoras asociadas a los distintos genes y con ello estudiar el efecto que tienen la infinidad de mutaciones existentes en el ADN no-codificante en las enfermedades, en el desarrollo embrionario y en la evolución.

Referencias
Carroll, S.B. (2008). Evo-devo and an expanding evolutionary synthesis: a genetic theory of morphological evolution. Cell 134, 25-36.

Haeussler, M., and Joly, J.S. (2011). When needles look like hay: how to find tissue-specific enhancers in model organism genomes. Dev Biol 350, 239-254.

Nica, A.C., and Dermitzakis, E.T. (2008). Using gene expression to investigate the genetic basis of complex disorders. Hum Mol Genet 17, R129-134.

Phillips, J.E., and Corces, V.G. (2009). CTCF: master weaver of the genome. Cell 137, 1194-1211.

Sakabe, N.J., and Nobrega, M.A. (2010). Genome-wide maps of transcription regulatory elements. Wiley Interdiscip Rev Syst Biol Med 2, 422-437.

Visel, A., Bristow, J., and Pennacchio, L.A. (2007). Enhancer identification through comparative genomics. Semin Cell Dev Biol 18, 140-152. Visel, A., Rubin, E.M., and Pennacchio, L.A. (2009). Genomic views of distant-acting enhancers. Nature 461, 199-205.

Algunas web de referencia
Proyecto Encode
http://genome.ucsc.edu/ENCODE/
UCSC Genome Browser
http://genome.ucsc.edu/