Aceleración de la Secuenciación Genómica (Rebajas en la secuenciación)

Prof. José Luis GarcíaCIB-CSIC. Madrid

Desde que hace más de medio siglo se descubriese que el DNA era la molécula portadora de la información genética, su secuenciación ha supuesto un permanente reto tecnológico para los científicos. Pero sin lugar a dudas el reto que supuso a finales del siglo XX la secuenciación del genoma humano, y el avance que ha de suponer para la Biología en general y para la Medicina en particular, la posibilidad de conocer a un coste razonable la secuencia de nuestro genoma individual y el de los seres vivos que nos rodean, incluidos los organismos patógenos, ha disparado una carrera tecnológica para abaratar el coste de la secuenciación y ofrecer a un ritmo que se acelera por momentos, rebajas continuas en la secuenciación masiva de genomas, incluidas las del genoma humano.

Para comprender mejor como se han producido estos avances y vislumbrar el futuro a corto plazo que nos espera en este campo, se propone la lectura de esta revisión y la de los libros, artículos y sitios webs recomendados.

Un poco de historia

La historia del DNA es la historia de una molécula estrella cuya importancia sin embargo pasó desapercibida durante muchos años después de su descubrimiento a mediados del siglo XIX (véanse libros recomendados). Fue en el año 1869, cuando el biólogo suizo Johann Friedrich Miesscher empeñado en aislar el núcleo celular, identificó un nuevo grupo de substancias ácidas ricas en fósforo a las que denominó “nucleínas” en un artículo publicado en 1871. Algo más tarde, Richard Altmann identificó en 1889 la naturaleza acídica de estas sustancias y las rebautizó con el nombre de ácidos nucleicos. A principios del siglo XX, Robert Feulgen describió en 1914 un método de tinción del DNA con el colorante fucsina, detectando por primera vez su presencia en los cromosomas. Durante la década de 1920, el bioquímico ruso-americano Phoebus Aaron Theodore Levene analizó los ácidos nucleicos y encontró que contenían cuatro bases nitrogenadas, dos pirimidinas (citosina y timina) y dos purinas (adenina y guanina), el azúcar desoxirribosa, y un grupo fosfato. También demostró que se encontraban unidas en el orden fosfato-azúcar-base, formando lo que denominó un nucleótido. Levene sugirió que los nucleótidos se encontraban unidos por los fosfatos, formando el DNA, y pensó que se trataban de cadenas cortas y que las bases se repetían en un orden determinado desarrollando la hipótesis del tetranucleótido. En el año 1928, Frederick Griffith investigando sobre la bacteria Streptococcus pneumoniae fue capaz de inducir la transformación de una cepa de neumococo no patogénica en patogénica y postuló la existencia de un factor de transformación como responsable de este fenómeno. Sin embargo, la identificación del DNA como la sustancia o material hereditario no se produjo hasta 1944 cuando Oswald Avery, Colin MacLeod, and Maclyn McCarty, lo identificaron como el principio transformante de Griffith. A pesar de estos datos la polémica de si era el DNA o las proteínas el material hereditario permanecía abierta y así en 1952 Alfred Hershey y Martha Chase del Cold Spring Harbor Laboratory realizaron una serie de experimentos destinados a zanjarla y marcando ambas moléculas, DNA y proteína, con isótopos radiactivos en un virus, pudieron demostrar que el DNA entraba en la bacteria. En 1953, sólo un año después de estos experimentos, apareció en la revista Nature, un artículo de James Watson y Francis Crick que describía la estructura del DNA, ganándole así la partida a Linus Pauling que había postulado previamente una estructura errónea para esta molécula. Este artículo de Nature no aparece sin más, como muchos creen, de la genialidad de estos dos científicos, sino que se nutre de una serie de estudios cristalográficos del DNA en los que están implicados varios científicos ilustres como Max Perutz, Maurice Wilkins, Rosalind Franklin, Alex Stokes, Raymond Gosling y Herber Wilson, entre otros.

Se puede afirmar que a partir de este momento se desata una carrera para averiguar la funcionalidad del DNA, y por supuesto su secuencia, convirtiéndose de esta manera en la molécula estrella de la Biología. En realidad lo primero que se comienza a secuenciar a mediados de los años 60 es el RNA, aunque no es hasta 1972 cuando Walter Fiers publica la primera secuencia de un gen del bacteriófago MS2 que posee un genoma RNA de 3569 bp, cuya secuencia sería publicada en 1976, constituyendo la primera secuencia de un genoma completo. En 1971 Ray Wu publica la secuencia de los 12 nucleótidos de los extremos cohesivos del bacteriófago lambda, lo que se considera la primera secuencia de DNA. Lo mismo hacen Walter Gilbert y Alan Maxam quienes en 1973 publicaron la secuencia de 24 nucleótidos del famoso operador lac. En 1975, Friederick Sanger desarrolla un método enzimático para secuenciar DNA y dos años más tarde en 1997 publica la primera secuencia de DNA de un genoma completo, el bacteriófago PhiX174 (5368 bp). En el año 1977, Maxam y Gilber publican también su método químico para la secuenciación del DNA que pronto caerá en desuso frente al empuje de la tecnología enzimática de Sanger. En la década de 1980 se desata una verdadera fiebre por la secuenciación de genes y genomas mediante el método de Sanger y se comienza a pensar en la posibilidad de secuenciar el genoma humano, a pesar de que en esos años la secuenciación manual del DNA era extraordinariamente tediosa (un investigador podía secuenciar sólo unos pocos cientos de pares de bases a la semana), costosa y en cierta forma peligrosa, debido al uso de sustancias radioactivas (Figura 1) y por eso sólo algunos laboratorios se atrevían con la secuenciación completa de genomas virales.

La carrera por la secuenciación del genoma humano

La posibilidad de secuenciar el genoma humano estimuló la imaginación de ingenieros, químicos, y biólogos, y a finales de la década de 1980 aparecen los primeros secuenciadores automáticos de DNA. La firma Applied Biosystems pone en el mercado en 1987 el secuenciador automático ABI 370A que tres años mas tarde se convertiría en el ABI 377. Estos secuenciadores utilizaban la electroforesis en placas de poliacrilamida para la separación de los fragmentos de DNA y permitían la secuenciación en unas pocas horas de hasta 96 muestras de DNA al mismo tiempo con longitudes de secuencia de más de 500 bp. Los nucléotidos se leían y registraban automáticamente gracias a un sistema de detección láser y a un complejo programa de análisis informático. El uso de cuatro fluorocromos diferentes para marcar los terminadores de secuencia, permitía utilizar el mismo canal para separar los fragmentos generados en las cuatro reacciones de terminación de polimerización que utiliza el método de Sanger. Con estos instrumentos las lecturas de secuencia de DNA se transforman en cromatogramas de picos de cuatro colores (Figura 1). Pronto la electroforesis en placa se sustituye por las nuevas tecnologías de electroforesis capilar y aparecen en el mercado, a mediados de la década de 1990, los secuenciadores capilares como el ABI3700 que posteriormente sufrirán otra evolución para dar origen a los actuales ABI3730. En este tiempo se desarrollan otros secuenciadotes automáticos como el Li-Cor4300, el MegaBace4000 y el CEQ8800, basados en el método de Sanger ofreciendo pequeñas variaciones en soluciones químicas y tecnológicas.

Figura 1. Métodos de Secuenciación de DNA y equipos de secuenciación masiva.

Cuadro 1. Sistemas de secuenciación de DNA

  1. Secuenciación por Electroforesis
    1. Electroforesis capilar
    2. Microelectroforesis
  2. Secuenciación cíclica en matrices
    1. Secuenciación por ligación
    2. Secuenciación por síntesis
  3. Secuenciación por hibridación
  4. Secuenciación en tiempo real

Hay que señalar aquí, por la relevancia que adquirirá más tarde, la tecnología de pirosecuenciación del DNA desarrollada por la empresa Biotage, cuyos equipos PSQ96 permitían la secuenciación de pequeños fragmentos de DNA, no más de 100 nucleótidos, y que por consiguiente tenían unas aplicaciones limitadas al análisis de mutaciones.

Cuando se comparan la cantidad de secuencias y pares de bases de DNA registrados en los bancos de datos, se observa como se pasa de forma exponencial desde unos pocos miles de secuencias en 1995 a los 20 millones de secuencias reconocidas en el año 2002, o lo que es lo mismo desde unos cuantos millones de pares de bases registrados en 1995 a los casi 30.000 millones registrados en 2002. Se estima que gracias a las diferentes evoluciones de estas tecnologías, el coste de cada nucleótido de secuencia publicada pasó desde 10 $ en 1990 hasta no más de 0,01 $ en 2005.

El elevado coste de secuenciación de los primeros genomas completos y en especial los casi 3 billones de dólares que se estima costó ensamblar el primer borrador del genoma humano que contiene 3 billones de nucleótidos (1 dólar/nucleótido terminado), sirvió de nuevo para estimular la imaginación de los científicos en busca de soluciones más baratas para la secuenciación masiva de DNA. Se abre así la denominada “carrera de los 1000 $” para tratar de ofrecer a este precio la secuenciación de un genoma humano completo.

La segunda generación de secuenciadotes de DNA de alto rendimiento

A principios del siglo XXI resulta evidente que por mucho que se abaraten las tecnologías de secuenciación capilar del DNA no van a poder dar respuesta a este gran reto de conocer de forma rápida y económica nuestros genomas y los de los otros seres vivos que habitan nuestro planeta. Animadas por el progreso de la nanotecnología, muchas compañías se lanzan a investigar y desarrollar nuevas metodologías basadas en esta disciplina y así surgen los primeros secuenciadores de DNA en paralelo de alto rendimiento (Figura 1).
Actualmente se encuentran en el mercado cinco tipos de secuenciadores de DNA de alto rendimiento que ofrecen diferentes tecnologías y aplicaciones como se muestran en la tabla 1. Por el momento, el único equipo que se ofrece para la secuenciación de genomas de novo es el equipo de la firma Roche GS-FLX, que utiliza la pirosecuenciación como soporte y que permite leer secuencias de casi 500 nucleótidos de longitud (Figuras 2 y 3). Los otros equipos son especialmente útiles para la re-secuenciación de genomas ya conocidos, y se diseñan especialmente pensando en abaratar el coste de la secuenciación del genoma humano, ya que son capaces de obtener volúmenes de lectura en el orden de las Gigabases.

Tabla 1. Equipos de secuenciación masiva comercializados.

EQUIPO

COMPAÑIA

SECUENCIACIÓN

DNA MOLDE

LECTURA (bp)

CARRERA (Gb)

TIEMPO CARRERA (h)

GS-FLX (454)

Roche

Polimerasa (pirosecuenciación)

PCR Emulsión

250-400

0.4

10

SOLEXA

Illumina

Polimerasa (terminadores reversibles)

PCR Puente

25-35

1

72

SOLiD

Applied Biosystems

Ligasa (octámeros con código de dos bases)

PCR Emulsión

25-35

3

72

HeliScope

Helicos Bioscience

Polimerasa (Extensión asíncrona)

Molécula Única

25-35

14

192

Polonator

Dover Systems

Ligasa (nonámeros)

PCR Emulsión

26

10

80

Hay que señalar aquí que en el caso de algunos genomas pequeños también es posible re-secuenciarlos mediante las tecnologías basadas en hibridación de DNA-chips. Un ejemplo de este tipo de secuenciación es el GeneChip de Afymetrix, denominado comúnmente como MitoChip, y utilizado para re-secuenciar el genoma mitocondrial humano que tiene una longitud de 16.000 nucleótidos. Los DNA-chips pueden ser muy útiles para detectar mutaciones en un genoma conocido y con el tiempo, una vez que los grandes proyectos de secuenciación masiva de genomas humanos puedan caracterizar las mutaciones más relevantes en nuestro genoma, estos chips pueden ser competidores efectivos de la secuenciación directa del DNA.

Figura 2. Esquema del sistema de secuenciación de DNA que utiliza el secuenciador GS-FLX (Roche). El equipo trabaja tomando imágenes de las señales luminosas que se generan en las celdillas donde se encuentran depositadas las microesferas que portan el DNA y las enzimas inmovilizadas necesarias para la pirosecuenciación. Los nucleótidos A, T, G, y C se van depositando cíclicamente sobre la rejilla de secuenciación.

Cuadro 2. Metodologías complementarias a la secuenciación masiva

  1. Filtración de genomas (exoma, espacio génico)
    1. Cot
    2. Metilación
    3. Captura dirigida de DNA
      1. Micromatrices (sólida) (NimbleGene)
      2. Microesferas (líquida) (Agilent)
  1. Secuenciación del cDNA (Transcriptómica)
  2. Secuenciación de ChIPs (Inmunoprecipitación de cromatina)
  3. Secuenciación de paired-ends (Ensamblaje)

Una gran ventaja que comparten estas nuevas tecnologías de secuenciación paralela de DNA de alto rendimiento, cuando se comparan con las tecnologías de secuenciación capilar, es que permiten la secuenciación de los genomas sin necesidad de recurrir a la clonación de los fragmentos de DNA. Esto evita el tedioso trabajo de crear genotecas y elimina el sesgo que se produce por el hecho de la replicación de los fragmentos en Escherichia coli.

Figura 3. Fotografía electrónica de barrido de las rejillas del secuenciador GS-FLX (Roche) donde se depositan las mircroesferas que contienen el DNA que posteriormente se va a secuenciar. El pequeño diámetro de las celdillas permite que se deposite únicamente una microesfera por celdilla.

Los límites en la capacidad de secuenciación de estos equipos vienen determinados en cierta forma por la capacidad de individualizar las moléculas de DNA en un soporte/rejilla de secuenciación, por los métodos de secuenciación en si mismos, que de una forma u otra se basan en la lectura de una hebra molde de DNA que se replica múltiples veces, y por la resolución de las tecnologías de lectura de los nucleótidos basadas en la microscopia de fluorescencia.

A medio camino entre estas tecnologías y los secuenciadores del futuro se encuentran las tecnologías desarrolladas por las empresas Network Biosystems y Complete Genomics. En el primer caso, se trata de una miniaturización de la electroforesis capilar mediante el desarrollo de un equipo denominado BioMEMs 768, que será pronto comercializado por Shimazdu Biotech y que utiliza las tecnologías de la microfluídica para realizar 768 electroforesis capilares sobre la base de dos chips de 384 canales que se alternan cíclicamente. En el segundo caso, Complete Genomics ofrece actualmente un servicio propio de secuenciación masiva de DNA basado en un equipo de secuenciación, construido de momento sobre la base de un robot multitarea convencional, que utiliza la amplificación fría de fragmentos de DNA para crear unas nanoesferas de DNA, que se depositan de forma ordenada sobre una rejilla recubierta con un sustrato “estampado” químicamente (“patterned substrate”) y un sistema de secuenciación mediante ligación combinatorial de nonámeros (“combinatorial probe-anchor ligation”). Con este equipo y un soporte informático espectacular, la compañía Complete Genomics promete grandes rebajas en la re-secuenciación del genoma humano, en el entorno de los 5.000-10.000 dólares en coste de reactivos.

Los secuenciadores del futuro “inmediato”

Teniendo en cuenta las limitaciones, antes apuntadas, en la secuenciación masiva del DNA son varias las tecnologías de secuenciación que se están desarrollando como se muestran en la Tabla 2. Estas tecnologías prometen poner muy pronto en nuestras manos una tercera generación de equipos mucho más potentes que los actuales, y por lo tanto prometen abaratar aun más la secuenciación de los genomas.

Tabla 2. Equipos de secuenciación masiva en desarrollo

COMPAÑIA

SECUENCIACIÓN

DNA MOLDE

Pacific Biosciences

Polimerasa

Molécula única

Oxford Nanopore

Electrónica

Molécula única

Sequenom

Electrónica

Molécula Única

ZX Genetics

Microscopia electrónica

Molécula Única

 

De todas estas tecnologías posiblemente la que se encuentra más cercana a su comercialización es la secuenciación SMRT (“single molecule real time sequencing”) desarrollada por la empresa Pacific Biosciences. Esta tecnología promete leer secuencias continuas de fragmentos de hasta 10.000 nucleótidos de longitud, lo que sin duda facilitaría el ensamblaje de los genomas, especialmente en la secuenciación de novo y abarataría el coste informático del proceso. Se trata realmente de una tecnología que utiliza los mismos principios de la secuenciación de Sanger sobre una hebra molde de DNA, pero llevando al límite los avances de la nanotecnología y la microscopia de fluorescencia, al analizar las moléculas de DNA individualmente sin necesidad de amplificación previa.

La tecnología que utiliza la microscopia electrónica desarrollada por la firma ZS Genetics es muy interesante en tanto que anticipa la posibilidad de leer la secuencia del DNA directamente sobre una imagen electrónica. De todas formas, la lectura de la secuencia requiere, por el momento, de la replicación previa de una hebra molde de DNA para poder marcarla con bases modificadas con yodo, bromo o triclorometilo antes de proceder a su visualización.

La tecnología de secuenciación de DNA que están desarrollando las empresas Sequenom y Oxford Nanopore basada en el paso de las hebras del DNA a través de nanoporos, plantea un abordaje muy diferente a todos los anteriores, ya que en este caso la lectura de la secuencia se realiza directamente sobre el DNA sin intervención de ningún proceso enzimático previo de marcaje o de copia, y sin la intervención de procesos de hibridación. Por el momento parece el método más revolucionario, ya que la manipulación del DNA antes de su secuenciación sería prácticamente nula.

Corolario

Teniendo en cuenta el enorme interés que existe por conocer nuestro genoma a un precio asequible es muy posible que en los próximos meses se anuncien nuevas rebajas en este mercado apasionante de la genómica. De lo que no cabe duda es que el número de genomas humanos que se conocerán en la próxima década aumentará exponencialmente y dispondremos así de información y herramientas sin precedentes para abordar el análisis de las enfermedades multigénicas.

Lecturas recomendadas

Libros
Dos libros muy interesantes sobre la historia del DNA y la Biología Molecular.

- Begoña Aguado, Ángel Carracedo, Alberto Fernández Medarde, Pedro García Barreno, Francisco Montero, Lluís Montoliu, José A. Melero, Andrés Moya, Emilio Muñoz, José Manuel Sánchez Ron, Eugenio Santos, Juan Ortín y Alfonso Valencia. 2003. En “50 años de ADN. La doble hélice”. Director Pedro García Barreno. Sociedad Estatal de Conmemoraciones Culturales. Editorial Espasa-Calpe. Madrid.
- José María Valpuesta. 2008. En “A la búsqueda del secreto de la vida: Una breve historia de la Biología Molecular”. Editorial Hélice. Coeditada con CSIC. Madrid.

Revisiones
Publicaciones recientes en las que se revisa el estado de las tecnologías de secuenciación de DNA de nueva generación y sus implicaciones en el progreso de la Biología y la Medicina.

- Gupta PK. 2008. Single-molecule DNA sequencing technologies for future genomics research. Trends Biotechnol. 26:602-611.
- Mardis ER. 2008. Next-generation DNA sequencing methods. Ann. Rev. Genomics Hum. Genet. 9:387-402.
- Pettersson E, Lundeberg J, Ahmadian A. 2009. Generations of sequencing technologies. Genomics 93:105-111.
- Rothberg JM, Leamon JH. 2008. The development and impact of 454 sequencing. Nat. Biotechnol. 26:1117-1124.
- Schuster SC. 2008. Next-generation sequencing transforms today's biology. Nat. Methods 5:16-18.
- Shendure J, Ji H. 2008. Next-generation DNA sequencing. Nat. Biotechnol. 26:1135-1145.
- Voelkerding KV, Dames SA, Durtschi JD. 2009. Next-generation sequencing: from basic research to diagnostics. Clin. Chem. 55:641-658.

Nuevas Tecnologías 
Publicaciones sobre los últimos desarrollos en secuenciación de DNA de camino hacia las tecnologías de la tercera generación.

- Eid J, et al. 2009. Real-time DNA sequencing from single polymerase molecules. Science. 323:133-138.
- Butler TZ, Pavlenok M, Derrington IM, Niederweis M, Gundlach JH. 2008. Single-molecule DNA detection with an engineered MspA protein nanopore. Proc. Natl. Acad. Sci U S A. 105:20647-20652.

Sitios Web
- http://www.454.com. Información sobre la tecnología GS-FLX
- http://www.illumina.com. Información sobre la tecnología Solexa.
- http://www3.appliedbiosystems.com. Información sobre la tecnología SOLiD.
- http://www.helicosbio.com. Información sobre la tecnología HeliScope.
- http://www.polonator.org. Información sobre la tecnología Polonator.
- http://www.pacificbiosciences.com. Información sobre la tecnología SMRT.
- http://www.completegenomics.com. Información sobre la tecnología DNB-CPAL.
- http://www.nimblegen.com. Información sobre las nuevas tecnologías de captura de DNA para la secuenciación del exoma.
- http://imb.usal.es/formacion/doctorado/cursos/tecnicas/secuenciacion.pdf. Conceptos básicos de secuenciación de DNA.
- http://www.ugr.es/~eianez/Biotecnologia/genoma-1.html Una visión general del proyecto Genoma Humano.