Bioinformática: Métodos para la Extracción de Información Biomédica

Bioinformática: Métodos para la Extracción de Información Biomédica
Curso 2006/2007

Titulación	Cuatrimestre	Horario	Créditos
Doctorado en Tecnología e Ingeniería del Software	segundo	Martes de 17:30 a 19:30	3.0

Profesorado | Motivación | Objetivos | Temario | Correspondencias

Profesorado

Motivación

El desarrollo tecnológico alcanzado en nuestros días, unido al consecuente abaratamiento de los recursos, ha propiciado que cualquier entidad sea capaz de almacenar todos los datos generados por su actividad. Esta facilidad para generar y almacenar información ha fomentado en los últimos años el desarrollo y perfeccionamiento de técnicas de Minería de Datos y Aprendizaje Automático para la extracción de conocimiento a partir de grandes conjuntos de datos (KDD, Knowledge Discovery in Databases) y el desarrollo de Sistemas de Ayuda a la Toma de Decisiones (DSS, Decisions Support Systems). Podemos definir la minería de datos como el proceso no trivial de inferir conocimiento, previamente desconocido, potencialmente útil y humanamente comprensible, a partir de grandes cantidades de datos, con el propósito de predecir de manera automática comportamientos y tendencias.
En general, en los DSS son aplicables a cualquier campo o actividad social o industrial. La áreas de aplicación típicas de los DSS son: la gestión y planificación de negocios, atención sanitaria, militar, y cualquier área de gestión en el que se encuentren situaciones de toma de decisión complejas. En concreto, hoy en día son utilizadas en áreas como Industria, Robótica, Banca, Investigación, Agricultura, Educación, Medicina y Biología. Son estas dos últimas áreas las que mayor interés adquieren en este curso. Por una parte, la aplicación de los DSS en el campo de la Medicina se centra en la obtención de reglas de decisión para establecer diagnósticos, realizar análisis de parámetros médicos para su posible eliminación, detección de interdependencia de síntomas, etc. Respecto a la Biología, la búsqueda de patrones genéticos que son predeterminantes en futuras enfermedades resulta la aplicación más desarrollada en los últimos tiempos. En este contexto, la unión de la Informática y las nuevas tecnologías al campo de la Biomedicina ha dado lugar a un nuevo área científica que se conoce como Bioinformática.
La consecución de diferentes Proyectos Genoma y los espectaculares avances recientes en el campo de la Genómica, la Proteómica, y la Bioquímica han generado, durante los últimos años, una ingente masa de datos cuyo adecuado procesamiento resulta de una importancia capital para el desarrollo a corto plazo de una serie de áreas de carácter estratégico en los ámbito biotecnológico, biomédico y biosanitario. La decidida incorporación de itinerarios curriculares específicos en bioinformática no es arbitraria sino que responde, de hecho, a una necesidad plenamente reconocida por la comunidad internacional y está respaldada por la reciente irrupción de políticas científicas, en Europa y Estados Unidos, tendentes a potenciar y promover la investigación y la formación de especialistas en dicho campo de la Biología Molecular. La formación de bioinformáticos es percibirla, de hecho, como una necesidad perentoria cuya demanda crecerá previsiblemente de forma espectacular en los próximos años, y obligará a los países que lideran la investigación en este campo a la captación de especialistas de terceros países.

Objetivos

- Visión global del la Minería de Datos, KDD y DSS.
- Conocimiento las técnicas de extracción de conocimiento así como su correcto uso dependiendo del ámbito de aplicación.
- Capacidad para interpretar los resultados.
- Adquirir los conocimientos básicos complementarios: Genética, Biología Molecular, Bioquímica y Biotecnología.
- Conocer las metodologías y herramientas de la informática y la bioinformática, con un nivel suficiente como para poder entender e implementar algoritmos y desarrollar, gestionar las correspondientes bases masivas de datos en los contextos de la investigación y de la actividad aplicada a la industria.
- Entender, interpretar y elaborar los resultados obtenidos mediante la aplicación de técnicas bioinformáticas y “data mining” sobre bases de datos, resultados experimentales y modelos biológicos formales.
- Conocer el alcance y limitaciones de los recursos actuales en el campo de la bioinformática, sus principales vanguardias de desarrollo y sus tendencias actuales de investigación.
- Adquirir las destrezas necesarias para entender y confeccionar informes y publicaciones técnicas basadas en estudios y métodos propios de la bioinformática.

Temario

1. Visión General de los Sistemas de Adquisición de Conocimiento.
2. KDD: Fases.
3. Técnicas de Preprocesado.
4. Aprendizaje No Supervisado: Clustering
5. Aprendizaje Supervisado: Algoritmos de Data Mining
6. Técnicas de Visualización e interpretación de resultados
7. Conceptos: Biología Celular y Molecular, Genética y Biooquímica
9. Minería de Datos Aplicada a la Bioinformática
10. Extracción de Conocimiento en Bases de Datos Biomédicas
11. Análisis de Datos de Expresión Genómica

Correspondencia con los objetivos generales del programa

Tal como se comentó en la primera sección, y teniendo en cuenta el creciente interés que en los últimos años está adquiriendo el análisis de información biológica, genómica y biomédica, así como la necesidad de tratar de manera eficaz y eficiente grandes volúmenes de datos, su inclusión en el programa está plenamente justificada.

Correspondencia con las líneas de investigación del grupo

Las siguientes personas trabajan en líneas de investigación relacionadas con los contenidos del curso:
- Raúl Giráldez Rojo
- Jesús S. Aguilar Ruiz
- José C. Riquelme Santos

Bibliografía comentada

[Han00] Han, J., Kamber, M. “Data Mining: Concepts and Techniques”, Morgan Kaufman Publishers, 2000.
Este libro da una visión global de las técnicas de Minería de Datos de un modo claro y estructurado, A modo suplementario, el capítulo 2 da una idea de los data warehouse y las técnicas OLAP. El capítulo 3, acerca de preprocesamiento, está muy bien estructurado y es muy completo. El autor del libro es un experto en reglas de asociación, por lo que dedica 54 páginas, es decir, un capítulo entero, a este tema. El capítulo 7, sobre clasificación, es muy interesante para los estudiantes, pues aborda conjuntamente muchos métodos de clasificación: árboles de decisión, Bayes, redes neuronales, vecinos más cercanos, rough sets, fuzzy sets, algoritmos evolutivos, etc. Es un buen libro para comenzar a introducirse en el tema.
[Mit97] Mitchell, Tom. “Machine Learning”, McGraw-Hill Science/Engineering/Math, 1997.
Este libro es un clásico, tal vez porque fue uno de los primeros, en 1997. El capítulo 3, acerca de árboles de decisión es muy completo. Los capítulos 4 y 6, acerca de redes neuronales y aprendizaje bayesiano son muy interesantes. Como introducción a los algoritmos genéticos, el capítulo 9 es muy ilustrativo. Este libro es más teórico que el anterior, así que debería usarse para complementar algunos temas.
[Wit99] Witten, I.H., Frank, E. “Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations”, Morgan Kaufmann Publishers, 1999.
El libro está más orientado al uso de las técnicas de minería de datos, en especial de la biblioteca que desarrollaron los autores (WEKA), actualmente en uso bastante extendido. Tal vez por esta razón, lo temas introductorios son muy claros. El tema 2 debería considerarse preámbulo a cualquier curso de minería de datos. El tema 3 da una clara idea de lo que las técnicas de minería de datos pueden obtener. El tema 4 hace un recorrido por diferentes técnicas de minería de datos, haciendo una descripción muy breve de cada una de ellas. El tema 5 es especialmente interesante pues muestra cómo se validan los resultados obtenidos, lo que será importante en las clases de laboratorio. El tema 8 nos enseña a utilizar la librería en Java diseñada por los autores, aunque muy superficialmente. El último capítulo es recomendable al final del curso, pues esboza los temas de interés actuales en minería de datos: massive data mining, visual data mining, text mining y web mining.
[BAX04] Baxevanis, Andreas D. (Editor), Ouellette, B. F. Francis (Editor), “Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins”, AMAZON, 2004.
Este libro es una práctica colección de capítulos de diferentes autores que puede servir como guía de referencia en el campo del análisis automático de secuencias genes y proteínas. Tras una interesante descripción de diferentes tipos de bases de datos biológicas, trata por separado el análisis a nivel de nucleótidos (ADN/ARN) y a nivel de proteínas.
[WAN04] Wang, Jason T. L.,. Zaki, Mohammed J, Toivonen, Hannu T. T. and Shasha, Dennis. “Data Mining in Bioinformatics (Advanced Information and Knowledge Processing)”, AMAZON, 2004
Este libro ayuda al lector a comprender el estado del arte de las técnicas de minería de datos aplicadas al campo de la bioinformática. Incluye, entre otros, los siguientes tópicos con un enfoque computacional: pre-procesamiento de la información biológica, técnicas de clasificación y clustering en microarrays, búsqueda de secuencias características en diferentes partes del genoma, prospección de haplotipos y búsqueda de marcadores de enfermedades, localización subcelular de actividad proteómica, clasificación de compuestos químicos basada en estructuras y aplicaciones filogenéticas.
[JON04] Jones, Neil C. and Pevzner, Pavel A. “An Introduction to Bioinformatics Algorithms (Computational Molecular Biology)”, AMAZON, 2004.
Este libro ofrece una clara exposición de los avances y directrices en el diseño de algoritmos en bioinformática. Es adecuado para estudiantes tanto de informática como de biología. Introduce los conceptos biológicos y computacionales al mismo tiempo de manera muy didáctica. Muestra cómo con pocas técnicas algorítmicas es posible solucionar gran cantidad de problemas biológicos.