El papel de la biología computacional en España: recursos institucionales y humanos y perspectivas sobre el futuro.

Profesor Alfonso ValenciaProtein Design Group, Centro Nacional deBiotecnología-CSIC

La Bioinformática puede considerarse como un pilar imprescindible en los proyectos de genómica y proteómica en los que es necesario organizar resultados, analizarlos, generar hipótesis y proponer nuevos experimentos. Esta actividad ha hecho que la Bioinformática se convierta en un componente básico para el desarrollo de la biología molecular, la biotecnología y la biomedicina.

La creciente actividad en genómica, particularmente obvia tras la secuenciación del genoma humano, incluyendo campos como la genómica comparativa con más de 300 genomas secuenciados, la genómica funcional tanto referida al estudio sistemático de la expresión de genes como a su control, la proteómica particularmente en composición de organelas y detección de mapas de interacción completos en proteomas, y el estudio de la variabilidad individual con los proyectos de secuenciación de SNPs (polimorfismos de un solo nucleotido) y otro tipo de variabilidad (e.g. delecciones)


Fig 1. Integración de la Bioinformática en el contexto de las tecnologías de Genómica y Proteómica.

Todos estos desarrollos planean problemas bioinformáticos propios tanto para la organización como para la representación y análisis de la información, a la vez que las interesantes posibilidades abiertas por el uso combinado de estas técnicas representan un enorme desafío tanto científico como técnico. Es sin duda lícito afirmar que la gestión de la información en Genómica se ha convertido en uno de los mayores retos a los que se enfrenta la tecnología de la información en este comienzo de siglo.

Las secuencias de genes y proteínas, junto a la información experimental está contenida en centenares de repositorios y bases de datos, que contienen información altamente especializada de composición muy heterogénea. Las nuevas técnicas genómicas para la descripción de sistemas biológicos completos, incluyendo los arrays de ADN y las colecciones de SNPs suponen un salto tanto cualitativo como cuantitativo en la información contenida en estas bases de datos, y han contribuido a incrementar la complejidad de la información disponible. En respuesta a esta problemática se están desarrollando proyectos bioinformáticos dirigidos a establecer estándares de almacenamiento y conectividad de bases de datos, incluyendo los estándares de almacenamiento y gestión de datos para DNA arrays (www.ebi.ac.uk/arrayexpress/ y wwww.mged.org) y para datos de interacciones entre proteínas (psimi.ibioinformatics.org).

También se están desarrollando interesantes nuevas tecnologías para hacer posible la operación integrada de los métodos bioinfomáticos disponibles en servidores de web distribuidos, atendiendo a reducir la problemática originada por la enorme dispersión de métodos existente en un área en la que hablamos de más de 800 repositorios de información distribuidos.

Tabla 1 Principales bases de datos utilizadas en biología molecular



Secuencias de ADN
EMBL http://www.ebi.ac.uk/embl/
GenBank http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Nucleotide
 
Secuencias de proteínas
SwissProt http://us.expasy.org/sprot/
Uniprot http://www.ebi.ac.uk/uniprot/
 
Estructuras de proteínas
PDB http://www.rcsb.org/pdb/
 
Variabilidades génicas
dbSNP http://www.ncbi.nlm.nih.gov/projects/SNP/
 
Literatura científica
PubMed http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PubMed
iHOP http://pdg.cnb.uam.es/UniPub/iHOP/
 
Arrays de ADN
SMD http://genome-www5.stanford.edu/
ArrayExpress http://www.ebi.ac.uk/arrayexpress/
 
Interacción de proteínas
PSI standard psimi.ibioinformatics.org
Intact http://www.ebi.ac.uk/intact/index.html
Mint http://mint.bio.uniroma2.it/mint/
 
Bases de datos Médicas
OMIM http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM

La bioinformática y la biomedicina
La Bioinformática es una herramienta fundamental para el proceso de I+D de la industria farmacéutica. Muestra de la importancia de la Bioinformática en el proceso de I+D de nuevos tratamientos es la tendencia de grandes multinacionales como AstraZeneca, GlaxoSmithKline o Roche a desarrollar internamente el proceso de análisis bioinformáticos en departamentos específicos, como parte del núcleo de sus actividades.

La utilización de técnicas bioinformáticas en las fases de descubrimiento de nuevas dianas sobre las que desarrollar nuevos fármacos es potencialmente capaz de acelerar este proceso con el consiguiente ahorro de recursos. La aplicación en fases de validación de dianas y moléculas, junto a la creciente utilización para el análisis de toxicidad y de especificidad es aún más interesante, puesto que puede resultar decisiva para priorizar los mejores proyectos en los estadios tempranos de su desarrollo.
Finalmente la bioinformática es un componente clave en el desarrollo de la llamada “medicina personalizada”, que implica la posibilidad de desarrollar fármacos específicos para individuos con composiciones genómicas determinadas.

El conocimiento cada vez más preciso de la composición génica de grupos de población e individuos acercan cada vez más la información sobre alteraciones moleculares (genotipo) a la respuesta observable a nivel médico (fenotipo y enfermedades). La posibilidad de disponer de conocimiento detallado sobre las alteraciones moleculares relacionadas con una enfermedad, junto con la información sobre las diferencias individuales potencialmente relacionadas con la respuesta diferencial a tratamientos, crean sin duda un enorme potencial para el desarrollo de la biomedicina. Un desarrollo que sin duda requiere la integración de herramientas de análisis Bioinformáticos con los procedentes del área de Informática Médica y en el futuro cercano también con los procedentes de la Informática Química.

Actividad en Bioinformática en el sector público.
El desarrollo de la Bioinformática está directamente relacionado con la inversión en I+D de la industria farmacéutica y biotecnológica. Tradicionalmente, España no ha llevado a cabo grandes iniciativas en Genómica, Genómica Funcional (arrays de ADN), SNPs o Proteómica, creando un retraso tanto científico como tecnológico que ha sido ampliamente discutido. Una de las iniciativas más decididas para romper con esta situación histórica ha sido la creación por la Fundación Genoma España (www.gen-es.org) de plataformas tecnológicas destinadas a dar soporte a los proyectos de genómica y proteómica en el país. Estas plataformas incluyen: el Centro Nacional de Genotipado (www.cegen.org), el Instituto de Proteómica (www.proteored.org), el banco de DNA (www.bancoadn.org) y la iniciativa para facilitar el acceso a DNA arrays y el Instituto Nacional de Bioinformática (www.inab.org).

Genoma España también ha organizado varios proyectos de biotecnología de base genómica que complementan a los proyectos mas próximos a la investigación básica financiados por el MEC. Entre estos proyectos destaca el de estudio del genoma de solanáceas (http://www.gen-es.org/01_INFO/01_info.cfm?pag=0403), que incluye una contribución explicita al proyecto global de secuenciación (www.ensembl.org)

El Instituto Nacional de Bioinformática (INB) supone la inversión más importante en el área de la Bioinformática llevada a cabo en nuestro país. La misión del INB es organizar los sistemas necesarios para la correcta explotación de los resultados de los proyectos nacionales de Genómica y Proteómica, contribuir a la competitividad de los grupos y empresas nacionales en este sector, activar iniciativas de formación específicas y propiciar la participación en proyectos internacionales.

Ek INB está compuesto por cinco grupos verticales que proveen tecnología, experiencia y métodos en áreas de: i) Genómica comparativa, liderado por R. Guigó, (CRG Barcelona) ii) Análisis de proteínas, A. Valencia, (CNIO) iii) genómica funcional, J. Dopazo, (CIPF), iv) estructura de proteínas, M. Orozco, (IRBB, U. Barcelona), e integración de sistemas informáticos, O. Trelles, (U. Málaga), junto a estos grupos, dos nodos horizontales son responsables de la infraestructura informática del INB, uno de ellos en el Parque Científico de Madrid coordinado por J.M. Carazo, y el otro en el Barcelona Supercomputer Center (BSC) de la U. Politécnica de Cataluña organizado por X. Messeguer. Es destacable la colaboración entre el INB y el BSC para la utilización del superordenador MareNostrum en temas de biología computacional, articulada mediante un convenio específico y con la contribución directa de cuatro ingenieros del INB a la incorporación de software específico en los procesos de computación de MareNostrum. El INB cuenta con un nodo encargado de coordinar actividades de formación que durante el primer periodo de actividad del INB se contribuido a la organización de 12 cursos de formación en distintas universidades y centro de investigación, tanto en temas generales de introducción a la Bioinformática como en otros específicos de tecnología bioinformática aplicada a la genómica. Este nodo esta liderado por F. Sanz, (IMIM, Barcelona). Muy recientemente se ha incorporado un nuevo nodo que agrupa tres empresas del sector interesadas en participar en los objetivos del INB (ver Tabla 2), en una actividad que debe contribuir a consolidar la parte comercial de la Bioinformática que ha comenzado a desarrollarse a nivel estatal.


Fig 2. Distribución de los grupos y nodos del Instituto Nacional de Bioinformática (INB)


Tabla 2. Empresas asociadas al Instituto Nacional de Bioinformática

BioAlma
Desarrolla sistemas de extracción de información de la literatura científica, así como trabajos de gestión y análisis de resultados experimentales de arrays de ADN
www.bioalma.com
Ebiointel
Ofrece soluciones bioinformáticas para la gestión y análisis de secuencias de ADN, SNPs y estudios de polimorfismo.
www.ebiointel.com
Applied Biosystems
Compañía multinacional con especial interés en el desarrollo de sistemas de proteómica y genética de poblaciones.
www. Appliedbiosystems.com

Durante su primer año y medio de funcionamiento, el INB por una parte ha establecido los programas, bases de datos y procesos necesarios para el trabajo en bioinformática en los dos nodos computacionales, y por otra parte ha consolidado una metodología para el trabajo cooperativo en Bioinformática , basada en el uso combinado de métodos bioinformáticos instalados como servidores web. El INB colabora al desarrollo de una variante específica de esta tecnología (ver www.biomoby.org) directamente relacionada con las aplicaciones conocidas como GRID en biología. Es importante destacar que el INB ha contribuido considerablemente al desarrollo de la tecnología como parte del consorcio internacional, particularmente en problemas relacionados con la persistencia de los servicios y el funcionamiento asíncrono. También ha desarrollado un portal de entrada propio que gestiona el registro de nuevos servicios, el flujo de trabajo y la identificación de gestores, usuarios y proyectos.

Un ejemplo del tipo de plataforma informática que permite utilizar la metodología desarrollada por el INB puede verse en la Figura 3. En este caso los muchos métodos individuales necesarios para el trabajo en bioinformática se han instalado en ordenadores de los distintos grupos del INB o de los nodos computacionales (en el panel de la izquierda de la Fig. 3 se muestra el menú que los contiene) dependiendo de su grado de complejidad computacional. El usuario no necesita tener información sobre la localización exacta de estos métodos individuales y puede crear flujos de trabajo complejos combinándolos directamente en una pantalla gráfica (el panel superior de la Fig. 3 se muestra el uso de una herramienta llamada Taverna (taverna.sourceforge.net) , para este propósito muestra un flujo de trabajo combinando métodos individuales). Una vez creado el flujo de trabajo, éste puede activarse con la entrada de información, una secuencia de proteína, en el ejemplo, y visualizar el desarrollo de los procesos y la creación de ficheros con resultados intermedios de cada proceso (parte superior del panel inferior de la Fig. 3.).


Fig 3. Ejemplo de integración de métodos Bioinformáticos desarrollada por el INB como plataforma para el trabajo en Genómica.

El modo de trabajo básico del INB para la colaboración con los proyectos de genómica es analizar el problema específico, desarrollar los flujos de trabajo necesarios (previa implementación de los métodos necesarios si no están disponibles), probarlos en colaboración con los biólogos experimentales expertos en el tema específico y consolidarlos en rutinas de trabajo que los propios usuarios pueden utilizar. Aunque es evidente la utilidad de esta aproximación para lidiar con los problemas básicos de los proyectos masivos de genómica, pensando en problemas tipo ( por ejemplo: análisis de EST secuencias, limpieza, ensamblado, comparación con bases de datos, agrupación y organización de los fragmentos ensamblados), es también evidente que la rápida evolución de las tecnologías y la complejidad de los problemas biológicos hacen necesaria la continua actualización de este tipo de procesos, de los que por otra parte es necesario entender que solo pueden resolver las tareas rutinarias pesadas facilitando la información necesaria para la investigación en los problemas biológicos específicos.

Bioinformática en el sector privado.

En el sector privado han surgido una serie de compañías con actividad en Bioinformática durante los últimos años. Es interesante destacar que en general estas compañías están constituidas con capital privado, sin una presencia significativa de capital riesgo, y se mantienen sin recurrir al ciclo clásico de rondas de financiación. Una situación posiblemente relacionada con la irregular implantación del capital riesgo en este sector en nuestro entorno. Aunque la mayoría de estas empresas han surgido como spin-offs de centros de investigación y universidades, la falta de mecanismos y regulación hacen que finalmente se hayan constituido con una alarmante ausencia de participación de las correspondientes instituciones. Otros factores críticos que hacen del desarrollo de estas empresas un tremendo desafío son: la poca adaptación de la normativa existente, la falta de gestores con conocimientos, experiencia suficientes, consecuencia de una falta de tradición en la transición entre investigación y empresa, y una poco consolidada estructura de financiación privada y pública. Además, el escaso desarrollo de la industria biotecnológica nacional hace que el desarrollo futuro de estas compañías dependa de forma crítica de su capacidad de abordar mercados internacionales, para la que la localización geográfica juega claramente en contra.

Junto a este tipo de iniciativas de base tecnológica, otro tipo de empresa interesadas en la Bioinformática son las empresas de Biotecnología para las que la Bioinformática puede resultar clave para el desarrollo de sus productos. En este sector se han desarrollado importantes inversiones a nivel internacional con una considerable reorganización de departamentos anteriormente dedicados a computación y tecnología de la información y ahora cada vez más dedicados a los problemas bioinformáticos.

Finalmente también las compañías centradas en la producción de hardware y tecnología de la información, como pueden ser HP, Apple o IBM, han invertido en desarrollos en bioinformática e informática médica, puesto que los sectores de la biotecnología y la biomedicina han pasado a ser una parte importante de su negocio. Estas compañías comienzan a desarrollar tanto sistemas que faciliten la distribución de sus productos en entornos biomédicos, como a desarrollar sistemas informáticos (por ejemplo los sistemas de almacenamiento y actualización de bases de datos) más adaptados a las necesidades del sector.

Un factor importante para entender la dinámica de la bioinformática entre los sectores privados y públicos es la rápida progresión en utilización software de uso abierto (open access) una corriente paralela a la distribución publica de datos y publicaciones, que permite una mayor flexibilidad a las compañías en cuanto a la integración de sus sistemas, y la incorporación de software desarrollado en entornos académicos con financiación pública.

El INB participa en el desarrollo del sistema Moby para la integración de servicios web (www.biomoby.org). La figura muestra en el panel derecho la lista de servicios bioinformáticos disponibles en servidores del INB, el directorio muestra la localización donde residen. Cada uno de ellos lleva asociada una documentación que los describe y permite al sistema saber con que otros métodos son compatibles.

La organización de estos métodos en flujos de trabajo puede realizarse con varias herramientas, en la figura se muestra el uso de Taverna (taverna.sourceforge.net) que es una de las mas avanzadas. El panel superior izquierdo muestra como se conectan los servicios desde una entrada inicial a varias salidas. Los colores indican el tipo de servicio prestado por cada método individual. En la figura se han señalado tres de ellos representando distinto tipo de demanda computacional.

En el panel inferior de la figura se muestra la entrada al flujo de trabajo creado, en este caso una secuencia de proteína, y el estado de la ejecución de los distintos métodos individuales. A partir de esa representación se puede acceder también a los resultados intermedios generados por cada método.