El Cluster de la Biocomputación o el reto de estar en las fronteras entre disciplinas

José María CarazoJefe Unidad de Biocomputación Centro Nacional de Biotecnología CNB-CSIC

Es usual pensar en el mundo de lo científico como rígidamente estructurado en torno a “disciplinas” o “ áreas de conocimiento” relativamente estancas, ya sea porque hablemos de microbiología, de oncología o de análisis matemático. Esta posición responde a nuestra necesidad de simplificar la realidad buscando patrones que la organicen y, realmente, suele ser una aproximación muy efectiva. Ahora bien, no podemos olvidar que se trata de una “aproximación” al problema, y que como tal puede ser violada en determinadas condiciones. De hecho, esta contribución trata sobre los grandes peligros de acercarse a ciertos temas desde esta simplificación de las disciplinas y de las áreas de conocimiento, y de cómo es necesario diseñar nuevas formas de abordar la realidad compleja del trabajo en las fronteras entre las disciplinas, tomando como ejemplo el campo de la bioinformática y la biocomputación.

Pensemos por un momento en qué disciplinas o áreas de conocimiento serían necesarias para “entender” la información biológica contenida en cientos o, muy pronto, miles y decenas de miles de genomas completos que se encuentran secuenciados. Por supuesto, pensamos inmediatamente en la genética y en la biología molecular, pero ¿Cómo no vamos a pensar también en la virología y en la microbiología, pongamos por caso, tratándose de tantas y tantas secuencias de virus y de bacterias?. Y ¿Cómo no incluir la estadística y las ciencias de la computación cuando nos encontramos con terabytes (10**40 bytes) de información que tenemos que analizar para encontrar patrones ocultos?. Y, claro, parece difícil abstraerse de todas las disciplinas centradas en el uso eficiente de los sistemas informáticos cuando es evidente que estos terabytes de información sólo podrán ser almacenados y analizados gracias a la informática. Parece pues, obvia, la necesidad de un abordaje interdisciplinar a estos problemas complejos y, sin embargo, prácticamente toda nuestra educación se ha desarrollado en torno a disciplinas concretas, incluso fomentado el orgullo de pertenecer a una cierta disciplina en detrimento de las demás. Es más que probable que nuestra actividad profesional en el campo de la investigación se haya basado en tener siempre que optar por una disciplina o por otra, por un área de conocimiento o por otra, en un intenso ejercicio de miopía institucional que parece perdurar a todas las reformas. ¿Cómo actuar, pues?. La respuesta es aún más difícil cuando, después de una corta reflexión, vemos que, desde un punto de vista personal, realmente necesitamos la división en disciplinas para profundizar en el conocimiento, simplemente porque no podemos abordar todo por nosotros mismos. Surge, entonces, la necesidad de diseñar estructuras nuevas de investigación que trasciendan de la dimensión personal, y es aquí cuando aparece la noción de “Cluster”, la idea de agrupar a un conjunto de profesionales procedentes de disciplinas distintas en torno a un problema común sin que cada uno pierda su “profundidad” de conocimiento. Surge así la noción de “Cluster de Biocomputación”.

Es siempre instructivo centrarse en problemas concretos, analizando en ellos el tipo de disciplinas y de relaciones entre ellas , necesarias para su abordaje. En los siguientes apartados se considerarán dos casos a modo de ejemplo. El primero es un estudio bioinformático sobre la base de datos de publicaciones científicas en Biomedicina compilada por el Gobierno americano y conocido como Pubmed (http://www.pubmed.org/). El segundo se referirá a un análisis computacional aplicado al campo de la biología estructural en el que se tratarán miles de millones de ecuaciones.

Caso 1: Análisis bioinformático de Literatura Científica

El problema que se plantea en este caso es el de “completar” la información funcional relativa a grandes conjuntos de genes o proteínas mediante el análisis de la literatura científica asociada. Considérese, por ejemplo, el caso de unos análisis de expresión génica mediante micro arrays (micro matrices) de DNA que dieran como resultado un cierto conjunto de genes diferencialmente expresados entre una cierta condición experimental y otra condición de referencia denominada control. Se trataría, ahora, de “leer” los cientos o miles de artículos que tratan sobre estos genes con el objeto de extraer la información relevante sobre los mismos. Ahora bien, es obvio que es imposible acometer esta tarea si no es por medio de sistemas automáticos de análisis de textos.

Un método clásico para el análisis de grandes conjuntos de datos consiste en la extracción de un número relativamente pequeño de “características” relevantes sobre los mismos, de forma que, mediante el estudio de este relativamente pequeño conjunto de características, se puedan inferir resultados sobre el conjunto inicial de datos. Obviamente, el punto clave de esta aproximación consiste en lograr una buena selección de este conjunto de características, existiendo para ello diversas aproximaciones. En particular, centraremos nuestra atención sobre un novedoso método denominado “Non-negative Matriz Factorization” (NMF) (Lee and Seung, 1999). La idea principal de esta metodología consiste en la definición de un conjunto de características que tienden a explicar los datos iniciales como una combinación positiva de las mismas. Esto es, cada dato inicial estará aproximado por una combinación siempre aditiva de características. La lógica de considerar siempre combinaciones positivas se basa en estudios de actividad cerebral que parecen indicar que éstas son percibidas mucho más claramente por el cerebro que combinaciones que involucran una substracción de características. Pues bien, esta idea conceptualmente simple, se ha demostrado muy compleja de realizar en la práctica, lo que explica lo reciente de su aparición hace poco menos de diez años.

Aún así, la metodología planteada en Lee and Seung, 1999, presentaba muchos problemas en su aplicación práctica a grandes conjuntos de datos, como son los de expresión génica, toda vez que era muy sensible frente a la presencia de “ruido” (esto es, de un término aleatorio) como parte de la medida. Era, pues, necesario desarrollar una nueva teoría matemática que extendiera la técnica de NMF a conjuntos de datos “ruidosos”, como son, en general, todos los datos experimentales. Esta nueva teoría se enmarcaría en el ámbito de la extracción de conocimiento de grandes conjuntos de datos, que se suele denominar “reconocimiento de patrones” o, en su aplicación a bases de datos, “minería de datos”. En efecto, esto es lo que se hizo, reportándose en una revista especializada del campo de la ingeniería (IEEE PAMI, Pascual-Montano et al, 2006a). Ahora bien, las aplicaciones concretas sobre datos de expresión génica generan conocimiento nuevo en biología, por lo que la aproximación natural es reportarlo en esta otra disciplina, como efectivamente se hizo (Pascual-Montano et al, 2006b; Chagoyen et al., 2006).

En la Figura 1 se muestra el flujo de datos y resultados en una aplicación práctica de NMF al análisis de la literatura científica. Se parte de un conjunto de genes (o proteínas) identificados como “interesantes” en algún análisis anterior (por ejemplo, mediante micro matices de DNA). Se extrae, ahora el conjunto de artículos científicos relativos a los mismos (por ejemplo, de Pubmed, www.pubmed.org), estos artículos se codifican como frecuencia de términos , que son ahora analizados mediante NMF. De esta forma se obtiene un conjunto de palabras que tienden a describir los datos agrupados en los “factores de NMF”, que en esta aproximación al análisis de textos se denominan “características semánticas” (“semantic features”). De esta forma se engarza una investigación centrada en el campo de las ciencias de la computación con otra centrada en la biomedicina.

 


Figura 1: Flujo de datos en el análisis automático mediante Non-negative Matriz Factorization de la literatura existente relativa a un conjunto de genes expresados diferencialmente.

Caso 2: Análisis computacioanal masivo aplicado a biología estructural

Fijémonos ahora en el estudio estructural de las nanomáquinas macromoleculares, que son los grandes complejos que llevan a cabo funciones concretas dentro de la célula, y, en particular, en un proceso tan fundamental como es la replicación del ADN, mediante el cual un organismo da lugar a dos nuevos en lo que es, en esencia, la base de la vida tal y como la conocemos. En el centro de este proceso replicativo aparece una enzima, la helicasa replicativa, responsable de separar las dos hebras del ADN de forma que cada una de ellas pueda replicarse, tal y como se muestra en la Figura 2. El caso concreto de estudio será la determinación de la estructura de esta enzima de cara a profundizar en las relaciones estructura función en este sistema.




Figura 2: Esquema del papel central de la enzima helicasa en la replicación del ADN

Para realizar este análisis se debe partir de la enzima aislada, para lo que es necesario realizar una purificación a partir de un material que contenga una razonablemente alta cantidad de esta máquina macromolecular, lo que probablemente lleve a utilizar técnicas típicas de biología molecular, como son el clonaje y la expresión. Considérese el ejemplo de la helicasa del onco virus SV40 (de “Simian Virus 40”). Para obtenerla se realiza un clonaje y expresión en baculovirus, seguido de un protocolo de purificación en base a una inmuno precipitación. Una vez obtenido el material se procede, bien a obtener cristales tridimensionales de fragmentos proteicos para su análisis por difracción de rayos X, bien a obtener imágenes de criomicroscopía tridimensional de cara a sintetizar su estructura en tres dimensiones. El resultado aparece mostrado en la Figura 3.




Figura 3: Campo de crio microscopia electrónica de una muestra de la helicasa del onco virus SV40. Superpuesta sobre el fondo se presenta la estructura tridimensional del complejo

En cualquier caso, el análisis de estas estructuras requirió el desarrollo de nuevos métodos matemáticos basados en la máxima verosimilitud que permitieron el análisis de mil millones de ecuaciones inconsistentes que determinaban un conjunto de cuatro millones de incógnitas (Scheres et al, 2007). Sólo mediante la estrecha colaboración con dos grupos distintos de matemáticos se pudo abordar este problema. Mas aún, los cálculos necesarios para implementar esta nueva matemática hubiesen sido imposibles de realizar si no se hubiese contado con la colaboración del Bacelona Supercomputing Center, evidenciando otra vez como la conjunción de diversas disciplinas en torno a un problema común concreto es la única forma de abordar con garantías de éxito los problemas complejos.

Conclusiones

Optamos en este ensayo por proponer la estructura “en cluster” como mecanismo de estructuración de grupos diversos en torno a problemas multidisciplinares.

En general, cuando nos referimos a un “cluster” solemos pensar en una forma de coordinación en base al reparto del trabajo en tareas relativamente grandes, siguiendo la analogía de un “cluster de computación”, que suele ser un sistema formado por una colección de ordenadores independientes que operan cada uno de ellos sobre una subrutina distinta dentro de un programa central coordinador. Esta forma de proceder mantiene la individualidad de cada elemento de computación, que en nuestra analogía sería cada uno de los grupos de investigación, que seguirán centrados en sus disciplinas o áreas de conocimiento particulares. Pensemos que esta arquitectura concreta de computadores –los clusters- constituye ahora mismo la tendencia mas popular en computación, con una excelente relación precio/prestaciones que la convierte en una opción “posibilista” frente a sistemas mucho mas complejos basados en una comunicación mucho mas fina y que son, también, mucho mas caros.

Desde la realidad actual de la enorme dificultad de comunicación entre disciplinas, proponemos avanzar de forma inmediata a lo largo de la opción de los clusters como forma de estructurar grupos diversos en torno a un proyecto común, presentando en este ensayo dos ejemplos concretos de investigación multidisciplinar en Bioinformática y en Biocomputación estructurados en forma de “cluster” de grupos de investigación.

Referencias:

Chagoyen, M., Carmona-Saez, P., Gil, C., Carazo, J.M., Pascual-Montano, A (2006), BMC Bioinformatics, 26:357-363.

Lee, D.D. and Seung, H.G. (1999), Nature, 401:788-791.

Pascual-Montano, A., Carazo, J.M., Kochi, K., Lehmann, D., Pascual-Marqui, R.D. (2006a), IEEE Trans. Pattern Anal.Ma tch.Intell., 28(3):403-15.

Pascual-Montano, A., Carmona-Saez, P., Chagoyen, M., Tirado, F., Carazo, J.M., Pascual-Marqui, R.D. (2006b), BMC Bioinformatics, 28:357-366.

Scheres, S., Gao, H., Valle, M., Herman, G.T., Eggermont, P.P., Frank, J., and Carazo , J.M. (2007), Nature Methods, 4(1): 27-29.

Valle, M., Cheng, X., Donate, L.E., Fanning, E. and Carazo, J.M. (2006), J.Mol.Biol., 357(4), 1295-1305.