Paradigmas de aprendizaje profundosoluciones metodológicas de aplicación a problemas de interés

  1. Pérez Borrero, Isaac
Dirigée par:
  1. Manuel Emilio Gegúndez Arias Directeur
  2. Diego Marín Santos Directeur

Université de défendre: Universidad de Huelva

Fecha de defensa: 13 mai 2022

Jury:
  1. Emilio Carrizosa Priego President
  2. Emilio Congregado Ramírez de Aguilera Secrétaire
  3. Josefa Ramírez Cobo Rapporteur
Département:
  1. CIENCIAS INTEGRADAS

Type: Thèses

Résumé

En esta tesis doctoral se ha llevado a cabo un estudio teórico y experimental en el campo del aprendizaje profundo. El objetivo de este estudio ha sido mejorar las técnicas actuales que se emplean en diferentes problemas de interés para la sociedad. Los principales problemas que presentan los modelos de aprendizaje profundo a la hora de ser implementados en entornos reales son la falta de precisión y el elevado coste computacional de su ejecución. Existen problemas en los que es necesario que la precisión del modelo sea lo más alta posible para que este tipo de soluciones puedan ser utilizadas. Además, la demanda de procesamiento de los modelos puede impedir su uso en ciertos problemas en los que la capacidad de procesamiento se encuentra muy limitada o se precisa de una elevada velocidad de procesamiento, como en el caso de los sistemas que trabajan en tiempo real. Por lo tanto, se hace necesario encontrar nuevas técnicas y paradigmas que permitan mejorar los resultados de las soluciones actuales además de reducir el tiempo de procesamiento sin que ello suponga una pérdida de precisión. Para la realización de esta tesis se han escogido dos problemas en los que se evidencian la necesidad de las mejoras mencionadas anteriormente. Por un lado, el primer problema consiste en la segmentación del árbol vascular en imágenes de fondo de ojo. Este problema tiene especial interés ya que permite crear una herramienta de apoyo al especialista para la monitorización del árbol vascular con el objetivo de detectar diferentes patologías. No obstante, al tratarse de un sistema destinado al ámbito médico, cualquier mejora de los resultados del modelo dota al especialista de una mayor confianza en esta herramienta. Por otro lado, el segundo problema consiste en la segmentación por instancia de fresas en imágenes. Este problema supone una pieza clave en la creación de cosechadoras automática de fresas y, por ende, es necesario utilizar modelos que puedan trabajar en tiempo real en equipos con gran limitación de procesamiento y memoria. El trabajo llevado a cabo en esta tesis ha dado lugar a tres publicaciones en las que se han propuesto soluciones que abordan las principales limitaciones de los modelos de aprendizaje profundo en los dos problemas de interés: la mejora de los resultados y la velocidad de procesamiento. En concreto, para el caso de la segmentación del árbol vascular, se ha propuesto un nuevo modelo basado en U-Net (modelo de referencia para la segmentación semántica) y nuevas técnicas para el entrenamiento que, en su conjunto, logran mejorar los resultados del estado del arte. De este modo, el modelo propuesto, con una arquitectura mucho más eficiente que la del modelo original y sin necesidad de aplicar un procesamiento a la imagen antes ni después de ser procesada por el modelo, presenta unos valores de AUC superiores a los obtenidos por los modelos más representativos del estado del arte. En el caso de la segmentación por instancia de fresas, se ha propuesto una modificación de Mask R-CNN (uno de los modelos de referencia en segmentación por instancias) con el objetivo de mejorar la velocidad de procesamiento del modelo original de forma considerable sin que ello repercuta de forma notable en los resultados. Las modificaciones propuestas han permitido trabajar a 10 fps, lo que supone doblar la velocidad del modelo original sin que ello repercuta de forma notable en el valor de mAP. Además, se ha propuesto un nuevo paradigma para abordar el problema de la segmentación por instancia de fresas, así como un nuevo modelo, que por primera vez en este problema es capaz de trabajar en tiempo real (30 fps) con un incremento en el valor de mAP superior al 15% respecto a Mask R-CNN. Los resultados alcanzados en los trabajos realizados en esta tesis para los dos problemas de interés escogidos permiten considerar a las soluciones propuestas como las mejores alternativas para su implementación en entornos reales de trabajo.