Fusión multimedia semántica tardía aplicada a la recuperación de información multimedia

Granados Muñoz, Rubén

Fusión multimedia semántica tardía aplicada a la recuperación de información multimedia

Granados Muñoz, Rubén

Dirigida por:

Ana M. García Serrano Director/a

Universidad de defensa: UNED. Universidad Nacional de Educación a Distancia

Fecha de defensa: 16 de septiembre de 2013

Tribunal:

Julio Gonzalo Arroyo Presidente/a
Miguel Ángel García Cumbreras Secretario/a
Manuel Jesús Maña López Vocal
José Luis Martínez Fernández Vocal
Paloma Martínez Fernández Vocal

Tipo: Tesis

Teseo: 354220 DIALNET Acceso abierto editor

Resumen

El auge alcanzado por los dispositivos multimedia ha generado una cantidad ingente de información (fotografías, vídeos, música, etc.) lo que hace necesario el desarrollo de nuevas aproximaciones para la gestión y la recuperación de información multimedia. Por ejemplo, solo en la red social Facebook se añaden cada día 300 millones de fotografías nuevas o en Instagram que se han subido unos 5.000 millones de imágenes desde su creación en Octubre de 2010 (según el informe ¿Internet 2012 in numbers¿ publicado por Royal Pingdom ). La principal motivación de este trabajo de tesis doctoral es contribuir a gestionar y recuperar información multimedia desde grandes colecciones o repositorios, permitiendo además que el usuario exprese su necesidad de información utilizando una o varias modalidades de información (texto, audio, imagen). Aunque los objetos multimedia pueden ser muy variados, este trabajo se concentra en un escenario de recuperación multimedia de imágenes anotadas, por lo que se dispondrá tanto de metadatos textuales, como de las correspondientes características visuales de las imágenes (color, forma, textura). Sin embargo, como se mostrará en su momento, esta limitación a imágenes anotadas, no limita la aplicabilidad de las aportaciones de este trabajo a otros objetos multimedia. La búsqueda y la recuperación de contenido multimedia se han resuelto generalmente con estrategias textuales basadas en las descripciones y metadatos de dichos contenidos. Pero en el mundo real no siempre se dispone de información textual de calidad asociada a los objetos multimedia (o al menos que permita encontrar las respuestas esperadas por el usuario). Por otra parte las aproximaciones basadas en los aspectos visuales de imágenes (vídeo), hasta el momento, no alcanzan unos resultados de suficiente calidad. Una vía de solución a este problema complejo, que es el que se plantea en este trabajo, consiste en utilizar estrategias basadas en la combinación o fusión de la información disponible de las distintas modalidades de los objetos en una colección multimedia. Es conocido que cualquier concepto se describe mejor cuando se utilizan diferentes fuentes de información (Muller, Clough and Desealaers, 2010), por lo que las estrategias de Fusión Multimedia, tratan de aprovechar la sinergia de la información disponible o generada desde las distintas fuentes. Tras una breve introducción a la recuperación de información multimedia, en el apartado del estado del arte, se analizan diferentes aproximaciones de fusión multimedia existentes para combinar el conocimiento procedente desde cada uno de los modos de información. La evaluación experimental de cualquier contribución a la recuperación de información multimedia es imprescindible para mostrar la validez de la misma, pero por otra parte, es muy difícil de realizar aisladamente. Por ello, desde el inicio de este trabajo de tesis se ha participado anualmente en el foro ImageCLEF, con el objetivo de evaluar las distintas aproximaciones de fusión multimedia planteadas a lo largo del trabajo en colecciones facilitadas por el foro. En la memoria se describen detalladamente diferentes colecciones de objetos multimedia y los experimentos realizados con ellas. La aportación más importante de este trabajo es una propuesta de fusión multimedia asimétrica, basada en la inclusión de una fase inicial de prefiltrado textual de la colección original, apoyada en la mayor carga semántica presente en la información textual en comparación con la visual, seguida de la aplicación de algún algoritmo de fusión tardía o a nivel de decisiones (late fusion) de todos los resultados monomodales (la elección del algoritmo depende de las características de la colección y la tarea). A esta propuesta se le ha denominado Fusión Multimedia Semántica Tardía, o LSMF por sus siglas en inglés (Late Semantic Multimedia Fusion) (Benavent et al., 2013). Tras la experimentación realizada (Benavent et al., 2010) (Granados et al., 2011) se comprueba que con la aproximación LSMF, se cumplen los objetivos planteados al inicio del trabajo, porque se produce una mejora del rendimiento de las soluciones monomodales, a la vez que se simplifica el proceso de búsqueda visual en colecciones de imágenes anotadas, haciendo escalable la tarea sobre grandes colecciones, como se detallará a lo largo de esta memoria.