II Reunión de
la Red (Madrid 6-7 de mayo de 2004)
Libro: Tendencias de la Minería
de Datos en España (ISBN 84-688-8442-1)
III reunión de la
red (TAMIDA 2005)
La red de Minería de Datos celebró su tercera reunión en el seno del Primer Congreso Español de Informática (CEDI 2005) en Granada los días del 13 al 16 de septiembre.
IV reunión de
la red (TAMIDA 2007)
La red de Minería de Datos celebró su cuarta reunión en el seno del Segundo Congreso Español de Informática (CEDI 2007) en Zaragoza los días del 12 y 13 de septiembre.
Enlaces interesantes (libros,
proyectos, artículos, etc)
La revolución digital ha posibilitado que la captura de datos sea fácil y su almacenamiento tenga un coste prácticamente nulo. Con el desarrollo del software y el hardware y la rápida informatización de los negocios, enormes cantidades de datos son recogidas y almacenados en bases de datos. El resultado es que para analizar estas enormes cantidades de datos las herramientas tradicionales de gestión de datos junto con técnicas estadísticas no son adecuadas.
Es conocido que los datos por sí solos no producen beneficio directo. Su verdadero valor radica en la posibilidad de extraer información útil para la toma de decisiones o la exploración y comprensión del fenómeno que produjo los datos. Tradicionalmente en la mayoría de los dominios este análisis de datos se hacía mediante un proceso manual o semiautomático: uno o más analistas con conocimiento de los datos y con la ayuda de técnicas estadísticas proporcionaban resúmenes y generaban informes, o validaban modelos sugeridos manualmente por los expertos. Sin embargo, este proceso, en especial la generación de modelos, es irrealizable conforme aumenta el tamaño de los datos y el número de dimensiones o parámetros se incrementa. Bases de datos con un número de registros del orden de 10e9 y 10e3 de dimensión son un fenómeno relativamente común y sólo la tecnología informática puede automatizar el proceso.
Por todo lo anterior, surge la necesidad de metodologías para el análisis inteligente de datos, que permitan descubrir un conocimiento útil a partir de los datos. Este es el concepto de proceso de KDD (Knowledge Discovery in Databases). KDD puede ser definido como el proceso no trivial de identificar patrones en los datos con las características siguientes: válidos, novedosos, útiles y comprensibles. El proceso de KDD es un conjunto de pasos interactivos e iterativos, entre los que se incluye el preprocesamiento de los datos para corregir los posibles datos erróneos, incompletos o inconsistentes, la reducción del número de registros o características encontrando los más representativos, la búsqueda de patrones de interés con una representación particular y la interpretación de estos patrones incluso de una forma visual.
Los campos de investigación envueltos en un proceso de KDD son muy variados: desde bases de datos y reconocimiento de patrones, estadística e inteligencia artificial, visualización de datos y supercomputación. Los investigadores de KDD incorporan técnicas, algoritmos y métodos de estos campos. Así un proceso KDD engloba todos estos campos y principalmente centra su atención en el proceso completo de extraer conocimiento de grandes volúmenes de datos incluyendo el almacenamiento y acceso, escalando el algoritmo cuando sea necesario, interpretando y visualizando los resultados y soportando la interacción hombre-máquina.
El paso más importante de este proceso es conocido como minería de datos o data mining (DM a partir de ahora). DM es un campo interdisciplinar con el objetivo general de predecir resultados y/o descubrir relaciones en los datos. DM puede ser descriptivo, i.e. descubrir patrones que describen los datos, o predictivo, para pronosticar el comportamiento del modelo basado en los datos disponibles.
Típicamente un algoritmo de DM tiene tres componentes: el modelo, el criterio de preferencia o elección y el algoritmo de búsqueda. El modelo con dos posibles tipologías según su función o su representación. En el primer caso puede ser de clasificación, regresión, clustering, de generación de reglas, reglas de asociación, modelos de dependencia o análisis de secuencias. Según su representación puede ser redes neuronales, árboles de decisión, discriminación lineal, etc. Cada modelo tiene unos parámetros que deben ser determinados mediante un algoritmo de búsqueda que optimiza los parámetros del modelo según el criterio de elección o preferencia que hace un mejor ajuste del modelo a los datos.
Un concepto primordial, y diferenciador de las técnicas estadísticas más clásicas, es el de aprendizaje automático (machine learning), que fue concebido hace aproximadamente cuatro décadas con el objetivo de desarrollar métodos computacionales que implementarían varias formas de aprendizaje, en particular, mecanismos capaces de inducir conocimiento a partir de datos. Ya que el desarrollo de software ha llegado a ser uno de los principales cuellos de botella de la tecnología informática de hoy, la idea de introducir conocimiento por medio de ejemplos parece particularmente atractivo al sentido común. Tal forma de inducción de conocimiento es deseable en problemas que carecen de solución algorítmica eficiente, son vagamente definidos, o informalmente especificados. Ejemplos de tales problemas pueden ser la diagnosis médica, el reconocimiento de patrones visuales o la detección de regularidades en enormes cantidades de datos.
Los algoritmos de aprendizaje automático pueden clasificarse en dos grandes categorías: métodos de caja negra (o sin modelo), tales como redes neuronales o los métodos bayesianos, y métodos orientados al conocimiento, tales como los que generan árboles de decisión, reglas de asociación, o reglas de decisión. La propuesta de caja negra desarrolla su propia representación del conocimiento, que no es visible desde el exterior. Los métodos orientados al conocimiento, por el contrario, construyen una estructura simbólica del conocimiento que intenta ser útil desde el punto de vista de la funcionalidad, pero también descriptiva desde la perspectiva de la inteligibilidad. Existen también métodos para extraer reglas comprensibles a partir de estas cajas negras, con lo que en realidad ambas categorías pueden ser útiles para la extracción de conocimiento.
Lógicamente, las áreas del aprendizaje automático y la minería de datos se solapan en gran medida, en cuanto a los problemas que tratan y a los algoritmos que utilizan. No obstante, la minería de datos tiene un mayor enfoque en el conocimiento comprensible a partir de grandes cantidades de información, mientras que el aprendizaje automático se orienta más a la tarea del aprendizaje propiamente, buscando en algunos casos estrategias o heurísticas, más que el propio conocimiento comprensible. Por esa razón, la minería de datos tiene un espectro de aplicación más amplio visto desde el exterior, en el sentido de que interactúa mejor con diferentes dominios, pues el aprendizaje realizado se transforma en conocimiento útil para el experto en el dominio concreto.
Otra línea de trabajo relacionada es la de reconocimiento de patrones (pattern recognition o matching), concepto anterior en el tiempo al de aprendizaje automático y con un enorme potencial práctico. Este campo estudia el desarrollo y aplicación de sistemas complejos basados en técnicas "blandas" (redes neuronales, lógica borrosa, algoritmos evolutivos, etc.) para la tarea de clasificación adaptable de patrones, en una doble vertiente de reconocimiento y de focalización (conocimiento contextual). Este tipo de sistemas tiene su aplicación en problemas de los que no se dispone de un modelo matemático, o el modelo es demasiado complejo, o las propiedades estadísticas de los datos son muy variables. Tal es el caso, por ejemplo, de patrones visuales basados en imágenes aéreas o satelitales, de problemas de clasificación y diagnóstico en algunos campos (como la medicina o la balística). También se puede aplicar a problemas relacionados en el campo del control inteligente, en el cual los sistemas complejos neuronales suministran la capacidad de aprendizaje y la lógica borrosa permite la extracción de las reglas de clasificación o diagnóstico.
Un último concepto relacionado es el de soft-computing, idea que engloba gran parte de las metodologías que pueden ser aplicadas en DM. Algunas de las metodologías más extendidas y usadas son tales como algoritmos genéticos, lógica fuzzy, redes neuronales, razonamiento basado en casos, conjuntos rough o hibridaciones de las anteriores.
Nuestra red pretende abarcar todos los conceptos anteriormente descritos, entendiendo que las técnicas de aprendizaje automático y los métodos de minería de datos tienen una base común que es aprender a partir de ejemplos. Algunos de los dominios de aplicación son:
· Ámbitos financieros y de seguros: índices
de producción y costes, datos de tarjetas de créditos,
detección de fraudes, marketing.
· Salud: modelos de diagnóstico a partir de información
almacenada en sistemas hospitalarios, gestión de tratamientos,
diseño de campañas de prevención y vacunación.
· Distribución: análisis de cestas de la
compra, gestión de stocks y planificación de transportes.
· Producción: optimización del proceso de
fabricación y del control de calidad.
· Control de sistemas.
· Redes de telecomunicaciones: patrones de llamadas y
gestión de fallos.
· Dominios científicos: observaciones astronómicas,
datos genómicos y biológicos.
· Análisis de textos: internet, documentos multimedia.
· Administraciones y organismos públicos: análisis
de políticas de empleo, de vivienda, poblacionales, medioambientales,
seguridad, de educación, transporte y control del tráfico,
etc.
La red española de Minería de Datos y Aprendizaje (TIC2002-11124-E) tiene como principal objetivo la puesta en común y la colaboración, dentro de las líneas anteriormente descritas, de los grupos de investigación adheridos. En julio de 2006 se ha solicitado la renovación de la red, siendo en la actualidad 37 grupos con más de 300 investigadores, la mitad de ellos doctores:
Grupo
MINERVA - Universidad de Sevilla
Coordinador: José C. Riquelme Santos (Coordinador de la
Red)
Grupo GICAP (Inteligencia Computacional
Aplicada) - Universidad de Burgos
Coordinador: Emilio S. Corchado Rodríguez
Grupo
de Ciencias de la Computación y Sistemas Inteligentes
- Universidad de Cantabria
Coordinador: Eduardo Mora Montes
Grupo Sistemas Inteligentes y Minería
de Datos - Universidad de Castilla-La Mancha
Coordinador: José A. Gámez Martín
Área
de Sistemas Inteligentes del Instituto de Investigación
Tecnológica de la Universidad de Comillas
Coordinador: Eugenio Fco. Sánchez Úbeda
Grupo
AYRNA (Aprendizaje y Redes neuronales Artificiales) - Universidad
de Córdoba
Coordinador: Cesar Hervás Martínez
Grupo
de Inteligencia Computacional y Bioinformática - Universidad
de Córdoba
Coordinador: Nicolás
García Pedrajas
Grupo
de Investigación en Sistemas Inteligentes - Universitat
de Girona
Coordinador: Joaquim Melendez Frigola
Grupo
SCI2S (Soft Computing y Sistemas de Información
Inteligentes)- Universidad de Granada
Coordinador: Francisco Herrera Triguero
Grupo
IDBIS- Intelligent Databases and Information Systems - Universidad
de Granada
Coordinador: Juan Carlos Cubero
Grupo
de investigación Sistemas Inteligentes. Universidad de
Jaén
Coordinador: María José del Jesus Díaz
Grupo
de Reconocimiento de Formas y Visión por Ordenador - Universidad
Jaume I de Castellón
Coordinador: J. Salvador Sánchez
Grupo
de Computación Inteligente - Universidad de La Laguna
Coordinador: José A. Moreno Pérez
Grupo
de Inteligencia Artificial y Sistemas - Universidad de Las Palmas
de Gran Canaria
Coordinador: Javier Lorenzo
Grupo
de Investigación y Aplicaciones en Ingeniería Artificial
(IA)2 - Universidad de Málaga
Coordinador: Rafael Morales Bueno
Grupo
del European Centre for Soft Computing - Mieres (Asturias)
Coordinador: Oscar Cordón
Grupo
de Sistemas Inteligentes - Universidad de Murcia
Coordinadores: José M. Cadenas
Grupo
de investigación en Descubrimiento y Representación
del Conocimiento - Universidad Pública de Navarra
Coordinador: Ramón Fuentes González
Grupo
de Aprendizaje Automático - Universidad de Oviedo
Coordinador: Antonio Bahamonde Rionda
Intelligent
System Group - Universidad del País Vasco - Euskal Herriko
Unibertsitatea
Coordinador: Pedro Larrañaga Múgica
Grupo
GREC (Grup de Recerca en Enginyeria del Coneixement) - Universitat
Politécnica de Catalunya
- ESADE
Coordinador: Andreu Catalá Mallofré
Grupo
SOCO (Soft Computing Research Group) - Universitat Politécnica
de Catalunya
Coordinadora: Àngela Nebot Castells
Grupo
LARCA (Laboratorio de Algoritmica Relacional, Complejidad y Aprendizaje)
- Universitat
Politécnica de Catalunya
Coordinador: José Luis Balcázar
Grupo
KEMLG (Knowledge Engineering and Machine Learning Group) - Universitat
Politécnica de Catalunya
Coordinador: Miquel Sànchez-Marrè
Grupo de Técnicas Híbridas
de Data Mining - Universitat Politécnica
de Catalunya
Coordinadora: Karina Gibert
Grupo
DAME (Data Mining Engineering) - Universidad Politécnica
de Madrid - Universidad Carlos III de Madrid
Coordinador: Javier Segovia Pérez
Grupo MIP (Multi-paradigm Inductive Programming)
- Universitat Politécnica de Valencia
Coordinadores: Mª José Ramírez y José
Hernández-Orallo
Grupo
de Recuperación de Información y Minería
de Datos en la Web - Universitat Pompeu Fabra
Coordinador: Vicente López
Grupo
de Investigación en Sistemas Inteligentes - Universitat
Ramon Llull
Coordinador: Josep M. Garrell Guiu
Grupo
de Minería de Datos - Universidad Rey Juan Carlos
Coordinador: Jorge Muruzábal
Grupo
EDMANS de Minería de Datos - Universidad de La Rioja
Coordinador: Joaquín Ordieres
Grupo
MIDA - Universidad de Salamanca
Coordinadora: Vivian F. López Batista
Grupo
de Sistemas Inteligentes - Universidad de Santiago de Compostela
Coordinador: Paulo Félix Lamas
Grupo
de Optimización - Universidad de Sevilla
Coordinador: Rafael Blanquero
Grupo
BIGS de Bioinformática - Universidad Pablo de Olavide
de Sevilla
Coordinador: Jesús S. Aguilar
Grupo
de Reconocimiento de Formas y Aprendizaje - Universitat de Valencia
Coordinador: Francesc J. Ferri
Grupo
de Sistemas Inteligentes - Universidad de Valladolid
Coordinador: Carlos Alonso González
El primer workshop se celebró en Sevilla en Noviembre de 2002 durante la Conferencia Iberoamericana de IA, IBERAMIA y su objetivo fue constituir un foro específico de encuentro para los investigadores en los conceptos de la sección anterior. Las distintas conferencias nacionales e internacionales sobre Inteligencia Artificial constituyen, hasta ahora, el foro natural de encuentro. Sin embargo, la actual especialización de la investigación hace necesario la aparición de foros más específicos y de redes de trabajo que intente aunar los esfuerzos.
En mayo del 2004 se celebró la segunda reunión de la red en la Facultad de Informática de la Universisidad Politécnica de Madrid.
En septiembre del 2005 se celebra la tercera reunión en Granada como simposium asociado al primer Congreso Español de Informática (CEDI)
Estas reuniones deben cumplir un doble fin: por un lado, la transmisión de primera mano de las líneas de investigación que los distintos grupos tienen abiertas, con exposiciones de los resultados obtenidos y ya publicados como de los trabajos futuros; por otro lado, la continuación natural de esta puesta en común es la colaboración entre los distintos grupos para la cooperación investigadora en publicaciones y/o proyectos de aquellos grupos que trabajen en campos afines.