Genómica comparativa y predicción de genes

Roderic Guigó i SerraCentre de Regulació Genòmica, PRBB; Barcelona

"Todo es el resultado de Comparaciones" escribía Champollion desde Ginebra a su hermano, hace casi doscientos años. Champollion, mediante la comparación de los textos en la piedra de Rosetta escritos en griego, demótico y la escritura jeroglífica egipcia, había conseguido hacía poco descifrar esta última.
Las comparaciones son parte consustancial de la práctica científica. Cuando deseamos contrastar la hipótesis de una causa para un determinado efecto, modificamos ligeramente la causa y comparamos el nuevo efecto con el efecto inicial. De este modo, o bien rechazamos la hipótesis de partida o bien obtenemos soporte adicional para ella. Las comparaciones son, desde luego consustanciales a la Bioinformática. De hecho, la Bioinformática es de algún modo, la ciencia de las comparaciones. Si hay que datar en algún momento, el nacimiento de esta disciplina científica, éste es, sin duda, el momento, hacia los años sesenta, en que Margaret Dayhoff compiló por primera vez todas las secuencias de aminoácidos de las proteínas conocidas hasta entonces y las comparó sistemáticamente. Como resultado de ese ejercicio se hace patente que proteínas con funciones parecidas exhiben a menudo secuencias de amino ácidos parecidas. Y a la inversa, secuencias de aminoácidos parecidas exhiben normalmente funciones parecidas. Margaret Dayhoff y sus colaboradores, mediante el estudio sistemático de los cambios de aminoácidos que se producen en proteínas muy parecidas, y la subsiguiente construcción de matrices de substitución evolutivas, consigue cuantificar el parecido entre dos secuencias (Dayhoff, 1972). Esta estrecha relación entre secuencia y función, y la capacidad de cuantificar, de forma biológicamente razonable, el parecido entre secuencias ha sido sin duda uno de los pilares sobre los que se ha construido el edificio de la Biología Molecular moderna. No debe, pues de extrañarnos, que el artículo mas citado en Biología durante la década de los noventa es el artículo que describe el programa BLAST (Altschul et al., 1990), mediante el cual una secuencia (de aminoácidos o de nucleótidos) puede compararse de modo eficiente con todas las secuencias en una base de datos.

Esa estrecha relación entre secuencia y función se deriva obviamente del hecho que la secuencia codifica la función y que de algún modo, los organismos vivos son computaciones sobre la secuencia de nucleótidos de su genoma. Este carácter intrínsecamente computacional de la vida es el que explica que la comparación de secuencias haya sido extensamente utilizada en la práctica experimental, incluso antes de la popularización de la utilización de los ordenadores. En efecto, la capacidad de hibridación del DNA permite la comparación “in vivo” de secuencias. Así, por ejemplo, una técnica llamada “Zoo Blot” utilizaba análisis con Southern Blot para probar la capacidad de una sonda de ácido nucleico de una determinada especie para hibridar con el DNA extraído de un panel de especies distintas. Zoo Blots fueron ampliamente utilizados en la década de los ochenta—mucho antes que la secuencia de ningún genoma hubiera sido descifrada—para identificar las regiones codificantes de genes recién descubiertos (Katzav et al., 1989). La asunción subyacente es que las regiones codificantes están conservadas en las distintas especies y mantienen, en consecuencia, la capacidad para hibridar con la sonda.

La disponibilidad de las secuencias completas de un número creciente de genomas (y de ordenadores relativamente potentes) nos permite, hoy en día, replicar en el ordenador (“in silico”) este tipo de prácticas basadas en la hibridación del DNA, que hasta hace poco eran el patrimonio del laboratorio. En este sentido, los métodos de predicción comparativa de genes, que se basan en el hecho de que las regiones codificantes o exones están generalmente más conservadas, a lo largo de la evolución que la regiones no funcionales o intrones pueden considerarse una versión electrónica de los métodos tradicionales de Zoo Blot.


Figura 1. Comparación de las secuencias genómicas del gen FOS en human y ratón mediante el programa TBLASTX. Los exones se muestran como cajas rojas conectadas. Las diagonales corresponden a regiones detectadas como conservadas por TBLASTX entre las dos secuencias genómicas. Como puede observarse, los exones de FOS están completamente incluídos en regiones de conservación entre humano y ratón, mientras que los intrones sólo lo están parcialmente. Los programas comparativos de comparación de genes se basan en la conservación característica entre genomas que se observa en las regiones codificantes. El gráfico ha sido obtenido con el programa APLOT ( http://genome.imim.es/software/aplot ).

Numerosos programas han sido desarrollados en los últimos seis años para la identificación de genes basados en el análisis comparativo de genomas. En todos los casos, los métodos se basan en la obtención de un alineamiento entre las secuencias que se comparan, pero difieren en la relación entre el alineamiento y la predicción de la estructura exónica de los genes codificados en las secuencias comparadas. Esencialmente podemos distinguir dos grandes aproximaciones. En un caso, el alineamiento de las secuencias se produce simultáneamente a la predicción de la estructura exónica en ellas. Simplificando, se asume que las secuencias comparadas pueden dividirse en “regions alternates” de dos tipos distintos: codificantes y no codificantes (exones e intrones) y que el modo de conservación de secuencias (la manera como se cuantifica esa conservación) es distinto en cada uno de esos tipos. Se trata entonces de obtener la partición de las secuencias que maximiza la puntuación del alienamiento resultante. Probablemente, los métodos más populares que utilizan esta aproximación son los llamados Modelos de Markov ocultos dobles (“Pair Hidden Markov Models”), un ejemplo de los cuales lo constituye el programa SLAM (http://baboon.math.berkeley.edu/ ) .

En una aproximación distinta, otros métodos separan la obtención del alineamiento, de la predicción de genes. Quizás los programas más populares en esta categoría sean SGP2 (http://genome.imim.es/software/sgp2 ) y TWINSCAN (http://mblab.wustl.edu/query.html ). En estos programas, uno de los genomas se utiliza, generalmente, como genoma informante y la predicción de la estructura exónica se realiza en el otro genoma. En una primera etapa el genoma “problema” se compara con el genoma informante utilizando una herramienta standard de comparación de secuencias (TBLASTX, en el caso de SGP2, y la comparación se realiza tras la traducción de las secuencias genómicas a proteína; BLASTN, en el caso de TWINSCAN, y la comparación se realiza a nivel de secuencia primaria de nucleótidos). De este modo se localizan a lo largo de la secuencia del genoma problema regiones conservada con el genoma informante. Estas regiones son subsecuentemente utilizadas para modificar el comportamiento de programas de predicción de genes “ab initio”: GENEID en el caso de SGP2, GENSCAN en el caso de TWINSCAN. Simplificando mucho, aquellos exones potenciales que solapan con regiones de conservación ven incrementada su probabilidad de formar parte de la predicción final obtenida mediante estos métodos. Aunque los métodos en los cuales el alineamiento de secuencias y la predicción de genes ocurre simultáneamente son, en principio, mas elegantes y teóricamente mas rigurosos, requieren que las secuencias genómicas a comparar presenten un alto grado de ensamblaje (continuidad en la secuencia) y, en general, que la estructura exónica de los genes codificados en ellas esté conservada en las dos especies. Los métodos en los cuales el alineamiento la predicción de genes se mantienen como procesos separados, en cambio, son mas tolerantes a ensamblados parciales de la secuencia genómicas y no requieren conservación de la estructura exónica. Ello los hace, en general, los programas de elección para el análisis de genomas completos. Recientemente, nuevos métodos han sido desarrollados que extienden la comparación a múltiples genomas. En estos métodos, un árbol filogenético subyacente es utilizado para pesar relativamente la conservación entre dos secuencias de acuerdo con la distancia evolutiva que las separa. Un ejemplo de estos métodos es el programa N-SCAN, una extensión de TWINSCAN.

Predicción de selenoproteínas.

Para acabar me gustaria ilustrar la potencia de los métodos ad-hoc de análisis comparativo de genomas en el caso particular de la predicción de selenoproteínas. Las selenoproteínas son proteínas que incorporan Selenocisteína (Sec), el aminoácido número 21, un análogo de la Cisteína (Cys) Las selenoproteínas son dificiles de identificar en la secuencia del genoma porque uilitzan el codon TGA—normalmente un codón de finalización—para especificar Sec. El rol dual del codón TGA en las selenoproteínas las hace indetectables para la de programas de predicción de genes, y en consecuencia, los genes que codifican para selenoproteínas están en general incorrectamente anotados en los genomas de organismos eucariotas. La disponibilidad de un número creciente de genomas, sin embargo, ha hecho posible también una mejor caracterización del conjunto de selenoproteínas eucariotas. La recodificación del codon TGA como codón para Sec está mediada por una estructura tridimensional que se forma en la region 3’ no traducida (UnTranslated Regions, UTRs) de los genes de selenoproteína. Esta estructura, que se denomina “SElenoCystein Insertion Sequence (SECIS)”, no exhibe conservacion de secuencia entre genes distintos, y por tanto sólo puede usarse un patrón estructural para predecir su presencia en secuencias de DNA, lo cual resulta en una gran inespecificidad ; de hecho, miles de elementos SECIS potenciales pueden ser predichos en el genoma humano, aunque sólo existen unas veinticinco selenoproteínas identificadas. La secuencia de elementos SECIS de selenoproteínas ortólogas entre humano y ratón está, sin embargo, sumamente conservada. Este hecho permite discriminar eficientemente las predicciones de elementos SECIS reales, de aquellas que corresponden probablemente a falsos positivos. Se trata simplemente de considerar sólo las predicciones de genes en el genoma humano que están conservadas en el genoma de ratón. Esta sencilla estrategia contribuyó significativamente al descubrimiento de un número sustancial de nuevas selenoproteínas en el genoma humano (Kryukov et al, 2003). La comparación directa ente secuencias de aminoácidos ha sido también de utilidad para identificar nuevas selenoproteínas. La eliminación de la restricción de que el codón TGA no puede formar parte de una Pauta de Lectura Abierta (“Open Reading Frame”, ORF) conduce a la generación de un gran número de falsos positivos en el genoma humano. Por ejemplo, cuando esta restricción se elimina en el programa GENEID, se obtienen más de 13.000 genes con pautas de lectura que contienen el codón TGA. Aunque esta aproximación, parece no muy prometedora, la obtención de la secuencia de los genomas de otras especies de vertebrados alejadas filogenéticamente permite de nuevo la discriminación entre predicciones que posiblemente corresponden a selenoproteínas reales y falsos positivos. Por ejemplo, un numero similar de selenoproteínas son predichas en el genoma del pez globo (Fugu rubripes). Sin embargo, cuando todas las selenoproteínas predichas en humano son comparadas con todas las selenoproteínas predichas en el pez globo y se seleccionan sólo aquellas en las que la conservación típica entre proteínas incluye un codon TGA sólo una docena de candidatos permanecen. La inspección posterior de estos candidatos llevó al reciente descubrimiento de una nueva familia de selenoproteínas (Castellano et al., 2004).



Figura 2. Alineamiento de la selenoproteína dSelM en diferentes genomas eucariotas. El aminoácido selenocisteina (Sec) se representa por la letra U. Sec se especifica en la secuencia del mRNA por el codón TGA, normalmente un codón de terminación. Si TGA fuera, en este caso, un codón de terminación sería dificil explicar la gran conservación de secuencia que se observa antes y despues de este codón en organismos tan lejanos filogenéticamente como vertebrados e insectos. Si TGA fuera un codón de terminación, esperaríamos que la conservación de secuencia se desvaneciera inmediatamente después de este codón.

A medida que aumenta el número de genomas secuenciados, las oportunidades crecen para la genómica comparativa, que se ha convertido ya en una herramienta imprescindible para la comprensión de los genomas, en particular del genoma humano.


REFERENCIAS

Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ. “Basic local alignment search tool.” J. Mol. Biol. Oct 5;215(3):403-10. (1990)

S. Castellano, S.V. Novoselov, G.V. Kryukov, A. Lescure, E. Blanco , A. Krol. V.N. Gladyshev and R. Guigó. "Reconsidering the evolution of eukaryotic selenoproteins: a novel non-mammalian family with scattered phylogenetic distribution." EMBO reports, 5(1):71-77 (2004)

Dayhoff, M.O., Eck, R.V., and Park, C.M., inAtlas of Protein Sequence and Structure” 1972, Vo1.5, ed. Dayhoff, M.O., pp.89-99, Nat. Biomed. Res. Found., Washington , D.C. , (1972)

Katzav S., Martin-Zanca D, Barbacid M. “vav, a novel human oncogene derived from a locus ubiquitously expressed in hematopoietic cell. EMBO J. 8:2283-90 (1989)

G.V. Kryukov, S. Castellano, S.V. Novoselov, A.V. Lobanov, O. Zehtab, R. Guigó and V.N. Gladyshev "Characterization of mammalian selenoproteomes." Science 300(5624):1439-1443 (2003)

PÁGINAS WEB

SGP http://genome.imim.es/software/sgp2

Un programa de predicción de genes basado en la comparación de dos genomas que combina los programas GENEID y TBLASTX. TBLASTX es usado para comparar la secuencia de los genomas a nivel de aminoácido, y el resultado de TBLASTX se usa para modificar el comportamiento de GENEID, un programa “ab initio” de predicción de genes.

TWINSCAN http://mblab.wustl.edu/query.html

Similar a SGP, TWINSCAN combina BLASTN para la comparación de las secuencias y GENSCAN para la predicción de los genes. Recientemente TWINSCAN ha dado lugar a N-SCAN un programa que utiliza la comparación de múltiples genomas.

PIPMAKER http://pipmaker.bx.psu.edu/pipmaker/

PIPMAKER cacula los alineamientos entre regiones similares de dos secuencias de DNA. Los alienamientos resultantes se resumen en una gráfica que muestra el % de identidad en cada posicion (“percent identigy plot”, pip). MULTIPIPMAKER permite la comparación de más de dos secuencias.

UCSC BROWSER http://genome.ucsc.edu/

El navegador genómico de la Universidad de California en Santa Cruz (UCSC) ha introducido recientement un carril de conservación (“conservation track”) que cuantifica a lo largo de la secuencia del genoma de referencia la conservación en relación a la secuencia de otros genomas. Este carril es muy útil para identificar conservación de secuencia en regiones no anotadas, las cuales podrían corresponder a dominios funcionales todavía no identificados.