Estrategias y herramientas bioinformáticas de análisis del genoma de las enfermedades monogénicas y complejas*


*El presente artículo es un extracto de la transcripción de la conferencia pronunciada el 26 de mayo de 2011 por Joaquín Dopazo (Director de Genómica Funcional del Centro de Investigación Príncipe Felipe) en la “IV Jornada para Unidades de Consejo Genético en cáncer hereditario”, organizada por la SEOM con la colaboración del Instituto Roche.

La nueva generación de tecnologías de secuenciación ya está aquí. Mientras que los costes de estas técnicas se van reduciendo progresivamente, la cantidad de datos que se manejan y su complejidad se eleva exponencialmente. Lo cierto es que muchas de las tecnologías basadas en arrays han quedado obsoletas en muy poco tiempo, dando paso a otros nuevos recursos. Todo ello plantea importantes retos y oportunidades.

Figura 1
blank

Incluso, una rápida revisión de los artículos científicos publicados en la última década en relación con el uso de microarrays y de tecnologías similares de nueva generación revela claramente el descenso acusado en los últimos 2-3 años de trabajos relacionados con el empleo de arrays y el espectacular incremento de estudios con tecnologías de secuenciación de alto rendimiento.

Especialmente prometedor es el resultado que se podría obtener a partir del “Consorcio Internacional del Genoma del Cáncer” (ICGC), ya en marcha y que se espera produzca en los próximos años miles de genomas y exomas, así como otras medidas de escala genómica tales como datos transcriptómicos y del metiloma de una amplia colección de tipos tumorales.

Entre las tecnologías emergentes, resalta especialmente la secuenciación exómica, que hace realidad una verdadera Medicina Genómica; esta aproximación acelerará el descubrimiento de las bases genéticas de ciertos de desórdenes genéticos.

El exoma es la parte del genoma formado por los exones, es decir, las partes codificantes de los genes que formarán parte del ARN mensajero maduro que, al ser traducido por la maquinaria celular, da lugar a las proteínas. Es la parte funcional más importante del genoma y la que contribuye en mayor medida al fenotipo final de un organismo.

La secuenciación del exoma ayuda a solventar algunos déficits actuales en la secuenciación genómica. La secuenciación del genoma completo de cada humano es cada vez más práctica y útil, pero los costes de este proceso siguen siendo elevados. Como aproximación alternativa se plantea la resecuenciación dirigida de todas las subsecuencias que codifican proteínas. Por su parte, los estudios de análisis de asociación/de clonación posicional que se han focalizado en las secuencias de proteínas codificantes han sido altamente eficaces a la hora de identificar las variantes subyacentes en numerosas enfermedades monogénicas.Si bien no estamos siendo eficaces a la hora de identificar mutaciones funcionalmente relevantes fuera de las regiones codificantes de los genes, el exoma por sí solo representa un subsegmento altamente interesante del genoma en el que buscar variantes raras con gran efecto fenotípico.

La secuenciación exómica se realiza a partir de una librería construida por fragmentación del genoma completo a estudiar. A continuación, se capturan los fragmentos del genoma que corresponden a los exones mediante un array con sondas específicas para dichas regiones. Una vez capturados todos los exones (o, hoy por hoy, la mayor parte de ellos, como explicamos más adelante) se procede a secuenciarlos; finalmente, por una serie de procedimientos bioinformáticos, estas secuencias se vuelven a mapear sobre el mapa del genoma de referencia y se pueden apreciar los cambios (mutaciones) existentes. La ventaja que ofrece este abordaje (frente al más utilizado hasta hace muy poco, basado en arrays de SNPs) es que permite capturar mucha más información, pues no sólo identifica los SNPs asociados a la enfermedad, sino también las propias mutaciones causantes o directamente asociadas a ella.

Figura 2

Cuando se trata de buscar mutaciones en enfermedades monogénicas, se efectúa un complejo mapeo de las secuencias de cada uno de los individuos, se identifican las variaciones en la población analizada y, finalmente, se emplean controles (secuencias de individuos sanos) para filtrar esas variaciones. Así, se identifican, entre todas las mutaciones encontradas, aquellas que son compatibles con la enfermedad.

Todo ello, precisa de una infraestructura bioinformática compleja, no sólo capaz de facilitar este filtrado de información, sino también de aclarar si las mutaciones son o no conocidas previamente, si producen cambios de aminoácidos en la proteína resultante, si se ubican en zonas no codificantes del gen,…Esto genera la necesidad de disponer de una potentes bases de datos que necesitan ser actualizadas regularmente, un proceso bastante engorroso. El objetivo fundamental es conseguir la identificación de mutaciones nuevas asociadas a la enfermedad y que podrían causar algún daño a las proteínas diana.

Figura 3

Utilizando un visualizador genómico, podemos analizar distintas lecturas acumuladas en relación con un gen determinado. Esto permite detectar la presencia de mutaciones “sueltas” (que suelen ser errores de secuenciación), pero también otras mutaciones que se repiten en la población, son esenciales y se asocian con la presencia de la enfermedad. Esta metodología funciona muy bien en enfermedades monogénicas, que son en su mayoría enfermedades raras en la población, con un fenotipo muy obvio, y dependientes de pocas mutaciones con una alta penetrancia; pero este abordaje no resulta tan eficaz en el estudio de las enfermedades comunes (cáncer, diabetes, etc) donde están involucradas a la vez varias mutaciones de baja penetrancia.

En las enfermedades comunes, por tanto, el escenario es más dificultoso, sobre todo por la combinación de mutaciones, que da lugar a alteraciones funcionales que inducen un determinado fenotipo de enfermedad. Lo más normal es que para producir el deterioro de una función orgánica de importancia sea necesaria la intervención de varias mutaciones, lo que dificulta el reconocimiento de las mutaciones más significativas y la posibilidad de actuar sobre ellas. El problema es aún mayor si consideramos que muchos de los genomas controles que se utilizan contienen también alguna de estas mutaciones, aunque no necesariamente en la combinación que da como resultado la aparición de la enfermedad.

Por ello, en enfermedades comunes es bastante difícil tratar de buscar asociaciones con métodos de filtrado, que solo permiten hallar la “punta del iceberg”, es decir, un gen principal dañado y, en casos aislados, algunos genes secundarios o modificadores. La filosofía tradicional de efectuar una búsqueda gen a gen se debe (además de a las limitaciones técnicas existentes hasta hace no mucho) a un enfoque reduccionista que asocia las causas (genoma) a los efectos (fenotipo) y que debe dirigirse fundamentalmente hacia el estudio de enfermedades monogénicas.

Pero esto ha creado una forma particular de entender la investigación genética que nos está condicionando y que tiene muchas limitaciones; sin duda, una de las consecuencias de ir desde el estudio de las causas hacia los efectos a través de una función es que hemos ido adquiriendo la idea de que la función es una propiedad de la proteína, pero no sólo es eso. Es necesario rectificar esta visión, y asumir que nos enfrentamos a un contexto más complejo, en un escenario postgenómico donde debe predominar el abordaje holístico en el que las causas y los efectos se entienden prácticamente igual que antes pero donde el concepto de función ha cambiado.

Y es que ahora disponemos de información mucho más extensa sobre distintos tipos de asociaciones entre genes (regulatorias, funcionales,…). Ahora se entiende el fenotipo de la enfermedad como una propiedad de módulos de proteínas, y no de una única proteína, salvo en el caso de las enfermedades monogénicas. Partiendo de esta realidad, la estrategia típica de análisis genómico (basada en la filtración de mutaciones una a una) no ofrece los resultados deseados, puesto que funcionará realmente tan sólo en aquellos casos más sencillos y para los regiones del genoma menos “problemáticas”.

Es obvio, pues, que el futuro ya está aquí y que nos debemos manejar con infinidad de datos; sin duda, en biología pronto nos enfrentaremos a más datos que los que se producen en campos como la física de altas energías. Por si esto fuera poco, ahora disponemos de medidas precisas y exactas para múltiples variables.

Para generar y analizar esta ingente cantidad de datos, empleamos tecnologías de alto rendimiento (a escala genómica y, todavía podríamos decir, cuasi “ómica”, en el caso de la proteómica y la metabolómica ). Históricamente, la primera tecnología “ómica” que se ha utilizado en el ámbito clínico es la basada en el empleo de microarrays de expresión génica para la predicción del riesgo de metástasis en cáncer de mama (van’t Veer y cols, 2002). Desde entonces son numerosos las firmas de expresión génica con valor supuestamente pronóstico o predictivo descritas en la literatura científica. Ello ha conducido a la FDA a liderar en los últimos años varias iniciativas sobre la utilización de microarrays. Entre las más recientes, se encuentra el proyecto MAQC-II (Microarray Quality Control), cuyo objetivo prioritario era alcanzar un consenso sobre buenas prácticas para el desarrollo y validación de modelos predictivos empleando microarrays (MAQC Consortium, 2010).

Otra metodología “ómica” que se está empezando a manejar de forma asidua es el genotipado o, lo que es lo mismo, la identificación y análisis exhaustivo de la posible presencia de mutaciones. El genotipado y los arrays de genotipado se basan en la utilización de la variación genética que existe de forma natural entre todos los seres humanos para generar marcadores a lo largo de todo el genoma, con objeto de identificar mediante comparación posibles divergencias entre casos y controles que pudieran estar asociadas a una enfermedad.

Aproximadamente desde el año 2005 hasta la fecha se han llevado a cabo centenares de estos estudios de asociación a escala genómica cada vez más grandes y extensos para tratar de buscar genes asociados a numerosas enfermedades (véase el GWAS catalog). En el conjunto de estos trabajos se ha comprobado que, en el caso de enfermedades comunes, generalmente multigénicas como ya se ha comentado, la posibilidad de hallar marcadores es baja. Esto es así, entre otras cosas, porque estamos utilizando unas herramientas bioinformáticas que tratan de responder a unas preguntas que no son realmente las preguntas más adecuadas y correctas, ya que en realidad se están empleando tests de asociaciones monogénicas en enfermedades multigénicas, por lo que sólo se obtienen asociaciones de interés en los genes principales.

Figura 4

En los últimos años se han desarrollado otras metodologías, llamadas de “gene set analysis”, que en lugar de focalizarse en el análisis de los genes se han centrado en el estudio de las funciones (en conjuntos de genes). Estos nuevos recursos buscan, fundamentalmente, grupos de genes (que se establecen sobre la base de las funciones de cada uno de los genes), con el objetivo de descubrir si éstos están ligados o no a una enfermedad (deducción que se efectúa a partir de la comparación con otros grupos de genes del mismo tamaño escogidos al azar). De esta forma, si los tests en lugar de preguntar por los genes tratan de determinar las funciones que ejercen los mismos, utilizando exactamente el mismo conjunto de datos, obtenemos una información mucho más relevante desde un punto de vista práctico; aunque con este tipo de abordaje no se localizan los genes exactos responsables de una enfermedad, sí que orienta sobre el lugar dónde buscarlos y apunta posibles candidatos entre aquellos implicados en una u otra función o rasgo relevante (tales como proliferación, metástasis, inestabilidad cromosómica, etc).

Figura 5

También se pueden utilizar otras estrategias, basadas no tanto en el conocimiento funcional sino en redes, es decir, en subredes asociadas a fenotipos con una conectividad que va más allá de las expectativas aleatorias. Se trata de identificar si hay proteínas diana que estén cerca unas de otras, e investigar sus redes relacionadas con la enfermedad

En definitiva, las nuevas estrategias de abordaje genómico en lugar de preguntar por genes individuales, lo que hacen es tratar de investigar una colectividad de genes, ya sea que estén unidos por motivos funcionales, reguladores o por interacción.

En este momento estamos viviendo una verdadera transición desde el genotipado con SNPs (usando arrays) al genotipado por secuenciación; el paso definitivo de una a otra es cuestión de precio, una tendencia que se invertirá dentro de un par de años (en estos momentos siguen siendo más baratos los chips de ADN que la secuenciación del genoma/exoma completo) . Aunque las tecnologías de arrays seguirán bajando de precio durante 1-2 años, las tecnologías de secuenciación resultan mucho más informativas y terminarán por imponerse a medio y largo plazo.

A día de hoy, las tecnologías de secuenciación más utilizadas permiten acceder a más de medio millón de secuencias, con una cobertura de exomas de aproximadamente 50x. Estos sistemas capturan unos 19.000 genes (o ~300,000 exones9 y unos 800 miARNs, lo que por ahora deja fuera del análisis unos 4.000 genes; esto se debe al hecho de que hay genes que, por distintas causas, no pueden ser capturados con las tecnologías actuales. Por lo tanto, se estima que por secuenciación de exomas es posible interrogar aproximadamente un 85% de la porción codificante del genoma. En general, con una tecnología de estas características es posible obtener una cobertura mayor de 50 veces (50x, es decir, una redundancia media de lectura de cada una de las posiciones de 50); normalmente, sólo en las regiones exómicas se obtienen entre 60.000-80.000 variantes respecto al genoma de referencia, unos 600-1.000 indels (pequeñas inserciones y delecciones) y un centenar de variantes conocidas asociadas a enfermedad. En conjunto, los estudios de este tipo realizados revelan que cada uno de nosotros presenta en su genoma un número de mutaciones en heterocigosis mucho mayor de lo que se pensaba, y además con una frecuencia relativamente alta.

En este contexto, la clave del éxito en estos momentos pasa por la utilización de métodos de priorización. Existe una variabilidad tan elevada y las enfermedades comunes poseen una complejidad genética tan alta que después de analizar casos y controles vamos a disponer de demasiados genes candidatos; por ello, es preciso emplear métodos de priorización basados en los abordajes previamente expuestos. Ahora mismo, la tendencia pasa por buscar genes que funcionalmente estén interrelacionados y que, al mismo tiempo, guarden una cierta asociación con la presencia de enfermedad, utilizando para ello información precia (relaciones funcionales, co-citaciones bibliográficas/”text mining”, interacción de proteínas, co-expresión, co-regulación, co-localización, datos de ligamiento,…).

Aunque hay distintas tendencias respecto a cómo usar este tipo de información, en nuestra práctica habitual optamos preferiblemente por el manejo de información homogénea, basada en evidencias físicas, lo que plantea inconvenientes (cobertura insuficiente del genoma) y ventajas (menos riesgo de falsos positivos). Aunque se pueden hallar más relaciones si se apuesta por un abordaje heterogéneo (basado en el uso de vías de coexpresión, asociaciones funcionales, localización celular, datos de la literatura,…), se eleva el riesgo de aparición de falsos positivos.

A pesar de la creciente disponibilidad de métodos de priorización de genes candidatos, los más usados actualmente son los basados en la interacción de proteínas y las similitudes funcionales. En general, la priorización ayuda a entender el mecanismo de la enfermedad, además de facilitar el diseño de nuevos terapias; sin duda, los métodos de priorización integrativos serán un pilar esencial en el futuro de la investigación de las enfermedades.

Figura 6

Sin embargo, la validez y utilidad de los métodos de priorización hay que valorarla en su contexto. Su eficacia es relativa, sobre todo en el caso de los métodos que se basan en información procedente de la literatura médica; personalmente, le concedo mayor validez a aquellos recursos que se fundamentan en datos experimentales (interacciones físicas, co-expresión,…), puesto que proceden de estudios no sesgados. Lo que tenemos claro es que debemos buscar redes cuya conexión sea más alta de la esperable por simple azar.

Con todo, el próximo paso en este ámbito pasa por la modelización. Actualmente, nuestra exigencia es disponer de recursos que nos ayuden a identificar aspectos que tengan una mayor influencia en el fenotipo, es decir, en la función; para ello, se requiere el estudio de grupos de genes que den una información funcional más completa o el análisis de estructuras de conexión entre los genes que representen mejor la función.

Pero, incluso, se puede dar un paso más, acercando la transición desde el genoma hasta el estudio de la actividad de los genes. En estos momentos disponemos de información sobre pasos funcionales que, si experimentan algún tipo de trastorno, van a relacionarse con la aparición de una enfermedad o, al menos, van a provocar algún síntoma. Así surge la idea de desarrollar modelos de vías (pathways) de señalización; dado que las clases funcionales tienen una estructura interna, es posible explorar la función y la estructura interna por medio de vías. Si conseguimos modelizar estas vías y confirmar sus funciones, estaremos dando un paso definitivo para progresar significativamente en este ámbito, utilizando la información génica para verificar si un proceso está funcionando de manera correcta o no.

Figura 7

Con la modelización de pathways tan sólo necesitamos estimar las probabilidades de activación de cada gen y, entonces, calcular la probabilidad que tiene cada ruta de activarse (encenderse) o desactivarse (apagarse). A pesar de ser una tarea ardua y engorrosa, básicamente se utilizan leyes de probabilidad muy sencillas. Obviamente, este tipo de abordaje tan sólo se puede llevar a cabo en vías susceptibles de ser integradas en un modelo; de hecho, gran parte de las relaciones entre genes todavía no se pueden modelizar.

Existe una aplicación denominada Babelomics, de acceso gratuito y libre, tiene como objetivo facilitar el análisis funcional e integral de experimentos genómicos. Científicos del Departamento de Bioinformática y Genómica del Centro de Investigación Príncipe Felipe (CIPF) han desarrollado este paquete completo de herramientas bioinformáticas avanzadas que permite analizar de forma integrada datos genómicos (genotipado, detección de mutaciones, etc), transcriptómicos y proteómicos, y además generar interpretaciones de tipo funcional de los genes estudiados en cada experimento; incluso, en próximas fechas se espera dar soporte para secuenciación (Medina y cols., 2010).

Otra iniciativa innovadora en este contexto es la puesta en marcha del Proyecto Genoma Médico, que se sustenta en un consorcio público-privado en el que participan el Gobierno andaluz, el Ministerio de Innovación y la industria farmacéutica. El Proyecto Genoma Médico (MGP en sus siglas en inglés, Medical Genome Project) pretende estudiar, conocer y caracterizar un gran número de enfermedades de base genética, principalmente de aquellas que están causadas por un solo gen (monogénicas) y que en su mayoría son enfermedades raras. Los investigadores de este programa secuenciarán inicialmente 300 genomas de individuos sanos hasta conformar un patrón único, una plantilla que permitirá, al confrontarla con casos concretos, detectar las anomalías que producen ciertas patologías, para lo que se cuenta con más de 11.000 muestras de pacientes con diagnóstico clínico de alguna enfermedad de base genética.

Para la realización de este proyecto se ha creado un Centro de Secuenciación, que tiene un carácter eminentemente clínico y dedicado a secuenciar genomas fundamentalmente de enfermedades familiares, así como desarrollar una potente base de datos de individuos control y desarrollar las herramientas bioinformáticas más adecuadas para el análisis de los datos generados. Durante el año 2011 se esperan secuenciar los primeros 20 genomas y las primeras 2-3 enfermedades; para el año 2012, la expectativa es disponer de varios centenares de genomas y más de 30 enfermedades. Desde su concepción, este proyecto pretende la inmediata incorporación de los hallazgos que se vayan obteniendo al Sistema de Salud Andaluz.

Sin duda, las nuevas tecnologías de secuenciación de alto rendimiento facilitarán la investigación de las enfermedades humanas, teniendo en cuenta la variabilidad genética de cada paciente y la heterogeneidad de las enfermedades. Sin embargo, sigue existiendo una importante limitación a la hora de relacionar la información clínica con la colección de muestras de alta calidad. Actualmente, estamos entrando en la fase I de la Medicina Genómica (una fase de generación de conocimiento). Empezamos a conocer todas las variantes genéticas de los pacientes y a situarlas en un contexto funcional, creando una enorme base de datos. Esta información tratamos de aplicarla a nivel clínico, obteniendo unos resultados que se incorporan de nuevo a la base de datos, de manera que disponemos cada vez de una información más refinada y exacta; según vayamos incluyendo más datos en esta base, podremos subclasificar mejor las enfermedades y podremos dar una respuesta terapéutica más apropiada para cada caso.

Figura 8

Es esperable que en un futuro próximo podamos saber mucho, casi todo, de muchas de las enfermedades más prevalentes; en ese momento, se podrá sistematizar una práctica clínica basada en esta información, lo cual inaugurará una segunda fase de una Medicina Genómica en la que será posible una práctica médica asistencial sustentada en la información genómica.

Figura 9

Referencias
van’t Veer y cols. (2002), Nature, 415:530-6.
MAQC Consortium (2010), Nature Biotechnology, 28:827-838
Medina y cols. (2010), Nucleic Acid Research, 38 (suppl 2): W210-W213