La dinámica de las proteínas y la supercomputación. Una visión desde el “Mare Nostrum”

Prof. Modesto Orozco Modelización molecular y bioinformáticaInvestigador PrincipalProfessor (Biochemistry and Molecular Biology Dept. - UB)

Las proteínas y su flexibilidad.

Las proteínas son grandes estructuras moleculares que actúan como actores esenciales de los principales procesos intra- e inter-celulares: contribuyen a mantener la estructura global, son las responsables de los trabajos mecánicos celulares, son agentes claves en la comunicación intra y extra-celular, regulan la expresión génica, constituyen los elementos claves del sistema inmune y actúan como catalizadores de la práctica totalidad de procesos metabólicos. Desde un punto de vista químico son polímeros poliamídicos de aminoácidos, que gozan de una gran flexibilidad debido a la posibilidad de rotación de los enlaces vecinos al amida (los enlaces Φ y Ψ). La codificación para nuestras proteínas viene inscrita en el código genético que heredamos de nuestros antepasados y la síntesis se produce en los ribosomas. La secuencia sintetizada se repliega inmediatamente dando una estructura, en general muy estable y organizada en una o varias zonas más o menos globulares denominadas dominios estructurales.

El plegamiento global de una proteína es considerado como el principal determinante de la función de la proteína. No obstante, un análisis jerárquico y funcional de las bases de datos de estructura de proteínas (Protein Data Bank (PDB, http://www.pdb.org/) muestra como en ciertos casos plegamientos muy similares dan lugar a funciones biológicas muy diferentes en las proteínas (caso de algunos super-folds; véanse servidores de clasificación jerárquica de proteínas como SCOP (http://scop.mrc-lmb.cam.ac.uk/scop/) o CATH (http://cathwww.biochem.ucl.ac.uk/latest/)). En otros casos, y ésta es una experiencia común a todos los que realizan diseño de fármaco basado en estructura, la conformación de la proteína cambia sustancialmente en función de la presencia de ligandos. Todo ello indica que ciertamente la estructura global es clave para la función, pero dos factores más modulan la relación entre estructura función: i) la micro-estructura en los centros unión de ligando o de catálisis y ii) la flexibilidad molecular.

El primer reconocimiento de la importancia de la flexibilidad en la función de las proteínas se produjo al detectarse que el modelo original de catálisis enzimática (el de la llave y la cerradura), donde se entendía a la proteína como una estructura rígida, era incapaz de explicar muchas observaciones experimentales. A partir de esos datos se derivó el modelo de encaje inducido, según el cual la presencia de ligando modula la conformación de la proteína y conduce al enzima a la forma “bioactiva”. Un ejemplo muy elocuente de la magnitud del cambio conformacional inducido por presencia de ligandos en una proteína se muestra en la Figura 1, que corresponde a dos quinasas, estructuralmente no relacionadas entre si, pero que muestran el mismo tipo de movimiento de “encaje inducido”.


Figura 1. Estructuras de timidina y adenilato quinasas antes (blanco) y después (amarillo) de la unión de ligandos en el centro activo.

Sabemos hoy, que no solo los enzimas sufren cambios conformacionales, sino que la flexibilidad, es decir la capacidad de cambiar la conformación en función de estímulos externos, forma parte integrante de la naturaleza misma de casi todas las proteínas, con casos dramáticos como las proteínas no estructuradas en ausencia de ligando. Es por ello que entender, cómo y porqué las proteínas cambian su conformación y reaccionan a alteraciones de su entorno tiene una importancia crucial en nuestro intento de entender el funcionamiento de las biomoléculas.

Los avances en difracción de rayos X y resonancia magnético-nuclear hacen que obtener hoy información sobre la estructura promedio de una proteína sea algo factible, o incluso sencillo en muchos casos. Desgraciadamente, describir la flexibilidad es algo mucho más complejo, porqué precisamente ella es el principal obstáculo existente en la resolución experimental de estructuras de macromoléculas. Es por ello necesario recurrir a técnicas de simulación en las que partiendo de una estructura promedio de alta calidad se analiza como la proteína se va deformando a lo largo del tiempo. De estas técnicas, la dinámica molecular clásica (DM) es posiblemente la más poderosa.

La dinámica molecular
La base teórica de la DM arranca en los trabajos de Newton, pero el costo computacional que implica hizo que sólo a finales de los años setenta se realizaran las primeras simulaciones de DM de proteínas. Durante los ochenta se perfeccionaron los algoritmos de simulación y a lo largo de los noventa se publicaron las primeras aplicaciones en las que la DM permitía obtener información realmente útil para el biólogo. Los años que llevamos del nuevo siglo nos han servido para ver mejoras técnicas en el procedimiento, perfeccionamientos en los campos de fuerza que emplean y el desarrollo de algoritmos de simulación más eficaces computacionalmente. Sin embargo, ha sido la aparición de la nueva generación de supercomputadores la que más ha significado en la extensión del rango de aplicabilidad de la técnica en el campo de la simulación de biomacromoléculas.

Un cálculo de dinámica molecular es la sucesión de una serie de pequeños pasos elementales que han de realizarse millones, o incluso billones de veces:

i) Se calcula la energía potencial asociada a una conformación de la proteína. Para ello se utiliza un funcional clásico muy sencillo denominado campo de fuerzas (force-field) que ha sido parametrizado para reproducir resultados experimentales en sistemas modelos, o cálculos mecanocuánticos de alto nivel.

ii) La derivada de la energía respecto a las posiciones atómicas nos permite obtener la fuerza que actúa sobre cada partícula del sistema.

iii) La segunda ley de Newton permite entonces asignar las aceleraciones que actuarían sobre cada partícula (de masa conocida) de la molécula.

iv) Escogiendo un incremento de tiempo tan pequeño que podamos suponer que en él la aceleración es constante, podemos obtener numéricamente las velocidades que actúan sobre cada partícula del sistema por simple integración de las aceleraciones respectivas.

v) Finalmente, la integración de las nuevas velocidades nos permite obtener las nuevas posiciones asignadas a cada partícula de la proteína.

Al final de este proceso hemos realizado un paso de integración que corresponderá a la evolución del sistema en un pequeño elemento de tiempo. Cuan pequeño tiene que ser este intervalo temporal? La respuesta viene dada por la necesidad de que la aceleración se mantenga constante durante la integración y ello significa que la etapa de integración no puede ser más larga de que el movimiento más rápido del sistema. Estos movimientos suceden en la escala del femtosegundo, que es la que en la práctica se emplea para integrar las ecuaciones de Newton. El uso de una etapa temporal tan pequeña implica que el cálculo de un simple segundo de dinámica de una proteína implica realizar del orden de 1015 ciclos como el comentado. Si pensamos que en cada ciclo pueden tener que realizarse miles de millones de operaciones matemáticas sencillas, resulta evidente que el coste computacional de un cálculo de dinámica molecular de proteínas puede ser exorbitante. No extraña pues que sea la dinámica molecular uno de los tipos de cálculo que más recursos de supercomputación están focalizando en todo el mundo, y el tema fundamental al que se dedican en exclusiva algunos de los más potentes.

Mare Nostrum es el supecomputador más potente de Europa y uno de los más grandes del mundo dedicado al cálculo científico no específico. Es capaz de realizar más de 40 billones de operaciones en coma flotante por segundo (40 Teraflops) y tiene una arquitectura que lo hace ideal para ejecutar sobre él cálculos de dinámica molecular al permitir focalizar varios procesadores en el mismo cálculo (en algunos de los cálculos realizados por nuestro grupo se han empleado simultáneamente más de 512 procesadores). Gracias a Mare Nostrum es posible simular sistemas de mayor tamaño, por encima de los 100000 átomos y analizarlos en periodos temporales más extensos, llegando en algunos casos a la escala del microsegundo. Ello nos permite estudiar, por ejemplo. el inicio de procesos de plegamiento / desplegamiento de ácidos nucleicos o proteínas, analizar el acceso de ligandos a las proteínas, comprender los cambios conformacionales inducidos por la unión de esos ligandos, o estudiar complejos supramoleculareas como los nucleosomas o los ribosomas. Mare Nostrum puede funcionar también dirigiendo poder de cálculo a diversas simulaciones simultáneamente, con lo que es posible realizar estudios masivos a nivel de proteoma. Es en este último entorno en el que se enmarca MODEL (Molecular Dynamics Extended Library: http://mmb.pcb.ub.es/MODEL), uno de los proyectos más ambiciosos que se están realizando en el mundo en el campo de la dinámica molecular.

Molecular Dynamics Extended Library (MODEL)


MODEL es la base de datos más extensa del mundo de dinámica de proteínas y permite al usuario acceder a una descripción estructural completa de las proteínas y lo que la hace única a una representación completa de sus pautas de deformabilidad a lo largo de tiempo. En la versión actual MODEL contiene información sobre dinámica de unas 1000 proteínas simuladas durante 10 nanosegundos en condiciones similares a las fisiológicas y empleando los protocolos de simulación más precisos existentes. Internamente MODEL es: i) un conjunto de programas de preparación automática de archivos de entrada para programas de simulación molecular, ii) un programa central de simulación de DM, iii) un conjunto de herramientas de transformación e interconversión de ficheros de salida, iv) una batería de programas de análisis, v) una base de datos inter-relacionada montada sobre MySQL y vi) una estructura externa de meta-análisis de los datos y vii) una carátula externa de consulta via página web.

La arquitectura de preparación y procesado de trayectorias de MODEL es accesible como una utilidad Europea ( infraestructura europea para uso compartido) mediante el consorcio - 5 -
Europeo DEISA y es también accesible sin restricciones a todos los usuarios del Instituto Nacional de Bioinformática (INB, http://www.inab.org/)


Figura 2. Carátula de MODEL y ejemplo de acceso a la biblioteca de flexibilidad de una proteína.

Algunas cifras sobre MODEL.

Número de proteínas simuladas: Hemos realizado ya más de 1000 simulaciones de proteínas representativas de todos los plegamientos conocidos de las proteínas. Al acabar el proyecto el usuario siempre podrá encontrar información dinámica sino de su proteína de alguna muy similar. El objetivo de MODEL es pues cubrir todo el espacio estructural de proteínas (unas 1900 representativas de 30000 estructuras conocidas).

Condiciones de entorno y tamaño de los sistemas: Las proteínas, en su conformación experimentalmente determinada, han sido sumergidas en grandes cajas de agua, en presencia de contrariones que garantizan la electroneutralidad del sistema. Estos sistemas se replican infinitamente en el espacio, creando modelos periódicos. Los tamaños de los sistemas simulados más pequeños está sobre los 10000 átomos y los más grandes pasan de los 100000. Ello implica cálculos del orden de más de 1010 interacciones en cada etapa de integración. Un detalle del tipo de sistemas que estamos estudiando se muestra en la Figura 3.

Condiciones de simulación: Se integran las ecuaciones de Newton cada 2 femtosegundo, lo que implica que las trayectorias estudiadas incluyen información de más de 5 millones de etapas de integración. Todas las interacciones de largo alcance, incluidas aquellas entre partículas muy remotas se consideraron en el espacio directo o en el Fourier, empleándose para ello técnicas de Ewald. La información se guardó cada ps, lo que significa más de 10000 datos singulares para cada trayectoria.
Tamaño de la base de datos generada: Los datos que alimentan a la utilidad web de MODEL están depositados en forma de una base de datos relacional que ocupa en la actualidad más de 7 Terabytes de disco y que debe replicarse íntegramente por cuestiones de seguridad. En la actualidad el usuario solo puede acceder a la capa externa de MODEL que es a de la que se nutre la página web. Un sistema paralelo permite el manejo interno de la base de datos por parte de las personas que están desarrollando el proyecto.
Recursos computacionales destinados: MODEL fue uno de los proyectos pilotos de los utilizados para montar Mare Nostrum y durante los meses de montaje del ordenador llego a ocupar puntualmente hasta 2000 procesadores. En la actualidad es un proyecto interno del BSC, dentro del Programa de Biología Computacional que ha estado ocupando durante los últimos meses alrededor de un 15% de los recursos computacionales de Mare Nostrum. Paralelamente, el análisis de las trayectorias, que se realiza fuera de Mare Nostrum ocupa un “cluster” de 20 procesadores y el manejo de la base de datos corre a cargo de un servidor tetraprocesador que controla 4 unidades de discos RAID. Un robot de cintas y un sistema de duplicado automático garantizan la seguridad del sistema.


Figura 3. Detalle de un sistema de simulación de los empleados en MODEL. El que se muestra corresponde a una partícula core de nucleosoma e incluyendo contra-iones y agua cuenta con unos 130000 átomos. La caja de agua que rodea al nucleosoma tiene forma de octaedro truncado y es replicada infinitamente por cada una de sus caras.

Información en MODEL

La página web asociada con MODEL permite acceder a numerosa información por medio de la base de datos MySQL asociada.

Información asociada a la estructura y presente en bases de datos externas: Una vez seleccionada la proteína a estudiar, MODEL permite al usuario acceder a toda una serie de bases de datos descriptoras de la información estática de la proteína. Esto incluye entre otros los servidor PDBSUM (
http://www.ebi.ac.uk/thornton-srv/databases/cgi-bin/pdbsum/
) o JENA (
http://www.imb-jena.de/
) a los cuales se accede ya directamente en la hoja explicativa de la proteína en cuestión.

Información temporal de la estructura: Esto incluye magnitudes como la desviación cuadrática media de la proteína respecto a la experimental, el radio de giro, la estructura secundaria, la distribución de Ramachandran, la superficie accesible a solvente,....

Información sobre interacción ligando-proteína: La más importante es la energía libre de solvatación proyectada sobre residuos y los mapas de interacción para sondas (aún no implementados en la versión pública de MODEL).

Información de flexibilidad: Cubren desde los B-factors hasta el análisis de dinámica esencial. El servidor permite también acceder a medidas de entropía y volumen conformacional. También permite obtener medidas de fluctuaciones y recuperar videos de los movimientos globales o esenciales de las proteínas obtenidos de la dinámica.