Aprendizaje automático versus Expresiones Regulares en la Detección de la Negación y la Especulación en Biomedicina

  1. Cruz Díaz, Noa Patricia
  2. Maña López, Manuel Jesús
Revista:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Año de publicación: 2010

Número: 45

Páginas: 77-86

Tipo: Artículo

Otras publicaciones en: Procesamiento del lenguaje natural

Resumen

En este artículo, presentamos un sistema de aprendizaje automático que identifica las expresiones de negación y especulación en textos biomédicos, en concreto, en la colección de documentos BioScope. El objetivo de este trabajo es contrastar la eficiencia de este enfoque centrado en aprendizaje automático con el que se basa en expresiones regulares. Entre los sistemas que siguen este último enfoque, hemos utilizado NegEx por su disponiblidad y popularidad. La evaluación se ha llevado a cabo sobre las tres subcolecciones que forman BioScope: documentos clínicos, artículos científicos y resúmenes de artículos científicos. Los resultados muestran la superioridad del enfoque basado en aprendizaje automático respecto a la utilización de expresiones regulares. En la identificación de expresiones de negación, el sistema propuesto mejora la medida F1 de NegEx entre un 20 y un 30%, dependiendo de la colección de documentos. En la identificación de la especulación, el sistema propuesto supera la medida F1 del mejor algoritmo de línea base entre un 10 y un 20%.

Referencias bibliográficas

  • Aronson, AR. 2001. Effective Mapping of Biomedical Text to the UMLS Metathesaurus: The MetaMap Program. En AMIA Symposium.
  • Averbuch, M, T. Karson, B. Ben-Ami, O. Maimon, L. Rokach. 2004. Contextsensitive medical information retrieval. En Proceedings of the 11th World Congress on Medical Informatics, MEDINFO, páginas 1- 8, San Francisco.
  • Chapman, WW, W. Bridewell, P. Hanbury, GF. Cooper, BG. Buchanan. 2001. A simple algorithm for identifying negated findings and diseases in discharge summaries. J Biomed Inform. 34(5):301–10.
  • Collier, N, HS. Park, N. Ogata, Y. Tateishi, C. Nobata, T. Ohta et al. 1999. The GENIA project: corpus-based knowledge acquisition and information extraction from genome research papers. En Proceedings of the 9th conference on European chapter, páginas 08.12, Bergen (Noruega).
  • Elkin, PL, SH. Brown, BA. Bauer, CS. Husser, W. Carruth, LR. Bergstrom, et al. 2005. A controlled trial of automated classification of negation from clinical notes. BMC Med Inform Decis Mak. 5(1):13.
  • Goldin, IM, WW. Chapman. Learning to detect negation with ‘Not’ in medical texts. 2003. En Proceedings of the Workshop on Text Analysis and Search for Bioinformatics at the 26th Annual International ACM SIGIR Conference.
  • Huang, Y, HJ. Lowe. A novel hybrid approach to automated negation detection in clinical radiology reports. 2007. J Am Med Inform Assoc. 14(3):304–311.
  • Mitchell, KJ, MJ. Becich, JJ. Berman, WW. Chapman, J. Gilbertson, D. Gupta, et al. 2004. Implementation an evaluation of a negation tagger in a pipeline-based system for information extract from pathology reports. Medinfo. 11(Pt 1):663-7.
  • Mutalik, PG, A. Deshpande, PM. Nadkarni. 2001. Use of general purpose negationdetection to augment concept indexing of medical documents: a quantitative study using the UMLS. J Am Med Inform Assoc. 8(6):598–609.
  • Morante, R, W. Daelemans. 2009. A metalearning approach to processing the scope of negation. En Proceedings of the 13th Conference on Computational Natural Language Learning, páginas 21-29, Boulder (Colorado).
  • Morante, R, W. Daelemans. 2009. Learning the scope of hedge cues in biomedical texts. En Proceedings of the Workshop on BioNLP, páginas 28-36, Boulder (Colorado).
  • Morante, R, A. Liekens, W. Daelemans. 2008. Learning the scope of negation in biomedical texts. En Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, páginas 715- 724, Honolulu.
  • Pestian, J, C. Brew, P. Matykiewicz, DJ. Hovermale, N. Johnson, KB. Cohen et al. 2007. A shared task involving multi-label classification of clinical free text. En Proceedings of BioNLP, páginas 97-104, Praga.
  • Quinlan, JR. 1993. C4.5: Programs for machine learning. Morgan Kaufmann Publishers.
  • Quinlan, JR. Induction of Decision Trees. 1986. Machine Learning, 1:81-106.
  • Toutanova, K, CD. 2000. Manning. Enriching the Knowledge Sources Used in a Maximum Entropy Part-of-Speech Tagger. En Proceedings of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora, páginas 63-70.
  • Van Rijsbergen, CJ. 1979. Information Retrieval.Butterworths-Heinemann, Londres.
  • Vince, V, G. Szarvas, R. Farkas, G. Móra, J. Csirik. 2009. The BioScope corpus: annotation for negation, uncertainty and their scope in biomedical texts. En Proceedings of BioNLP, páginas 38-45, Columbus (Ohio).
  • Witten, IH, E. Frank. 2005. Data Mining: Practical Machine Learning Tools and Techniques. 2nd ed. Kaufmann M.