Una técnica evolutiva para la extracción de reglas de asociación en bases de datos numéricos
- José Cristobal Riquelme Santos Director
Defence university: Universidad de Sevilla
Fecha de defensa: 13 December 2002
- José Miguel Toro Bonilla Chair
- Jesús Salvador Aguilar-Ruiz Secretary
- Pablo Javier Tuya González Committee member
- Francisco Herrera Triguero Committee member
- José Manuel Andújar Márquez Committee member
Type: Thesis
Abstract
El trabajo desarrollado en esta tesis doctoral se sitúa dentro del proceso de extracción de conocimiento en bases de datos (KDD, Knowledge Discovery in Databases), y más concretamente en el área del aprendizaje no supervisado. Aunque sin olvidar el resto de las etapas del KDD, este trabajo se centra en la fase de Minería de Datos (Data Mínimo), y como técnica para la obtención de conocimiento, el objeto de estudio han sido las reglas de asociación. Actualmente existen numerosos algoritmos eficientes para encontrar este tipo de reglas pero la mayoría de ellos trabajan con bases de datos transaccionales o requieren que los dominios de los atributos de la base de datos sean discretos. Pero en el mundo real existen numerosas bases de datos donde la información es numérica. La mayor parte de las herramientas que trabajan sobre dominios continuos simplemente se limitan a discretizar dichos dominios mediante alguna estrategia concreta para tratarlos, posteriormente, como si fueran discretos. Nosotros pensamos que los métodos de discretización desvirtúan, en cierta medida, el resultado final de las reglas obtenidas, al no tener en cuenta, durante el proceso de división de los dominios numéricos, algunas de las medidas indicadoras del interés de las reglas de asociación, como pueden ser el soporte y la confianza. Esta tesis propone una herramienta que extrae reglas de asociación en bases de datos numéricas. El proceso de discretización, es decir, la búsqueda de los intervalos más adecuados para cada dominio numérico, se realiza en el propio proceso de búsqueda, no en un paso anterior. Ante la imposibilidad de poder establecer una heurística que decida, de forma precisa, la división de los dominios numéricos, hemos optado por la utilización de los algoritmos evolutivos como estrategia de búsqueda de los límites de los intervalos más precisos desde la óptica de las reglas de asociación.