Mejorando las técnicas de verificación de wrappers web mediante técnicas bioinspiradas y de clasificación

  1. Fernández de Viana González, Iñaki Josep
Zuzendaria:
  1. Pedro José Abad Herrera Zuzendaria
  2. José Luis Arjona Fernández Zuzendaria
  3. José Luis Álvarez Macías Zuzendaria

Defentsa unibertsitatea: Universidad de Huelva

Fecha de defensa: 2016(e)ko urtarrila-(a)k 22

Epaimahaia:
  1. Rafael Corchuelo Gil Presidentea
  2. Javier Aroba Páez Idazkaria
  3. M. I. García Arenas Kidea
Saila:
  1. TECNOLOGIAS DE LA INFORMACION

Mota: Tesia

Laburpena

Muchas Aplicaciones Empresariales necesitan de los wrappers para poder tratar con información proveniente de la web profunda. Los wrappers son sistemas automáticos que permiten navegar, extraer, estructurar y verificar información relevante proveniente de la web. Uno de sus elementos, el extractor de información, está formado por una serie de reglas de extracción que suelen estar basadas en etiquetas HTML. Por tanto, si las fuentes cambian, el wrapper, en algunos casos, puede devolver información no deseada por la empresa y provocar, en el mejor de los casos, retrasos en sus tomas de decisión. Diversos sistemas de verificación de wrappers se han desarrollado con el objetivo de detectar automáticamente cuándo un wrapper está extrayendo datos incorrectos. Estos sistemas presentan una serie de carencias cuyo origen radica en asumir que los datos a verificar siguen una serie de características estadísticas preestablecidas. En esta disertación se analizan estos sistemas, se diseña un marco de trabajo para desarrollar verificadores y se aborda el problema de la verificación desde dos puntos de vista distintos. Inicialmente lo ubicaremos dentro de la rama de la optimización computacional y lo resolveremos aplicando metaheúristicas bioinspiradas como es la basada en colonias en hormigas, en concreto aplicaremos el algoritmo BWAS; con posterioridad, lo formularemos y resolveremos como si de un problema de clasificación no supervisada se tratara. Fruto de este segundo enfoque surge MAVE, un verificador multinivel cuya base principal son los clasificadores de una única clase.