Negation and speculation detection in medical and review texts

  1. Cruz Díaz, Noa Patricia
Dirigida por:
  1. Manuel Jesús Maña López Director

Universidad de defensa: Universidad de Huelva

Fecha de defensa: 10 de julio de 2014

Tribunal:
  1. Manuel de Buenaga Rodríguez Presidente/a
  2. Jacinto Mata Vázquez Secretario
  3. Mariana Lara Neves Vocal
Departamento:
  1. TECNOLOGIAS DE LA INFORMACION

Tipo: Tesis

Resumen

La detección de la negación y la especulación ha sido un área de investigación activa en los últimos años en la comunidad de Procesamiento del Lenguaje Natural, incluyendo algunas tareas competitivas en conferencias relevantes. De hecho, muchas aplicaciones se podrían beneficiar de la identificación precisa de este tipo de información (por ejemplo, detección de interacciones, extracción de información, análisis de sentimientos). Esta tesis tiene como objetivo contribuir a la investigación en curso sobre la negación y la especulación en la comunidad de la Tecnología del Lenguaje a través del desarrollo de sistemas de aprendizaje automático que determinen las palabras claves de negación y especulación así como resuelvan su ámbito lingüístico de aplicación. Entendemos por resolver el ámbito lingüístico, identificar a nivel de la frase los tokens que se ven afectados por las palabras claves. Se centra en los dos dominios en los que la negación y la especulación han recibido más atención: el biomédico y el de artículos de opinión. En el primero, el método propuesto mejora los resultados hasta la fecha para la sub-colección de documentos clínicos del corpus Bioscope. En el segundo, la novedad de la contribución radica en el hecho de que, hasta donde sabemos, éste es el primer sistema entrenado y evaluado en la colección de artículos de opinión Simon Fraser University anotado con información negativa y especulativa, al mismo tiempo, que supone el primer intento en detectar la especulación en este dominio. Además, y debido a los problemas de tokenización encontrados durante el preprocesamiento de la colección de documentos BioScope y el escaso número de estudios en la bibliografía que aporten soluciones para este problema, la presente tesis describe este tema en profundidad proporcionando un análisis comprensivo así como lleva a cabo la evaluación de algunas herramientas de tokenización. Esta contribución supone el primer estudio de evaluación comparativo de tokenizadores en el ámbito biomédico, el cual podría ayudar a los desarrolladores de Procesamiento del Lenguaje Natural a elegir la mejor herramienta de tokenización a usar.