Extracción y Recuperación de Información. Según patrones: léxicos, sintácticos, semánticos y de discurso

Arquitectura General


Los inicios de la extracción de información se ubican a mediados de los años 60’s. Sin embargo, es a finales de los años 80’s cuando esta tecnología comienza a tener auge, el cual se debe principalmente a tres factores. Primero, el poder computacional ya entonces disponible; segundo, el exceso de información textual existente de forma electrónica; y finalmente, la intervención de la Agencia de Defensa de los Estados Unidos, quienes patrocinaron durante los años de 1987 a 1998 las siete conferencias de entendimiento de mensajes y activaron durante los años de 1990 a 1998 el programa TIPSTER6 (programa de investigación sobre recuperación y extracción de información del gobierno de EE.UU.), donde las MUC’s fueron incluidas. En resumen, las conferencias del MUC fomentaron la competición entre diferentes grupos de investigación para que desarrollasen sistemas de extracción de información, el resultado fue una década de experiencia en la definición, diseño y evaluación de esta tarea, y es dentro de las mismas donde Hobbs definió lo que se considera la arquitectura general para construir sistemas de extracción de información. Ésta arquitectura genérica es descrita como "una cascada de módulos que en cada paso agregan estructura al documento, y algunas veces, filtran información relevante por medio de aplicar reglas o patrones". En la figura 1 se muestra un bosquejo de la misma.


Figura 1: Arquitectura genérica de un sistema de extracción de información
Figura 1: Arquitectura genérica de un sistema de extracción de información

En resumen, la combinación de módulos que componen la arquitectura permiten en un mayor o menor grado alguna de las cuatro funciones siguientes:


  1. El pre-procesamiento de los documentos, que es un proceso que puede ser logrado por aplicar una variedad de módulos o patrones, por ejemplo:
    • La división en zonas textuales, que consiste en segmentar un texto en zonas, por ejemplo en párrafos.
    • La segmentación del texto, que transforma las zonas en segmentos apropiados, usualmente en oraciones.
    • El filtrado de texto, encargado de seleccionar los segmentos relevantes y de eliminar información irrelevante como ciertas etiquetas o marcas de formato.
    • La tokenización, que se ocupa de obtener las unidades léxicas (i.e. los tokens) en los segmentos, generalmente son palabras.
    • El analizador léxico, se ocupa principalmente del análisis morfológico de los tokens (i.e. la forma de las palabras, por ejemplo: género y número), así como del reconocimiento y clasificación de entidades, e.g. nombres propios.
    • La desambiguación, que tienen como objetivo tratar con palabras que desempeñan diferentes categorías sintácticas y palabras polisémicas que en función del contexto pueden tener un sentido u otro, para esto se hace uso del etiquetado de las partes de la oración y de la desambiguación del sentido de las palabras.
    • La obtención del lema y truncado, que por conocer las reglas de formación de las palabras permiten proporcionar el lema o raíz de una palabra.
  2. El análisis sintáctico e interpretación semántica, que tratan en primer término de identificar la forma en que las palabras se combinan para formar constituyentes a nivel sintáctico superior (i.e. los sintagmas); y posteriormente, generar bien una forma lógica o una plantilla parcial desde las sentencias analizadas de forma sintáctica. Ejemplos de módulos o patrones útiles para este propósito son:
    • El análisis sintáctico completo, que se encarga de decidir si una oración es gramaticalmente correcta, por lo tanto depende de utilizar una gramática muy extensa formada por todas las reglas del lenguaje.
    • El análisis sintáctico parcial, que tiene como objetivo recuperar información sintáctica de forma eficiente y fiable, desde texto no restringido. Este tipo de análisis sacrifica la completes y profundidad del análisis completo; sin embargo, durante la MUC-3 los mejores resultados fueron logrados por una aproximación de este tipo, hecho que fue reafirmado durante la MUC-4. La argumentación fue que sólo los conceptos que forman parte del escenario de extracción son relevantes para ser detectados en el documento, por lo tanto el análisis sintáctico y semántico debe simplificarse a un análisis de frases. Como parte de la MUC-6 se expusieron una serie de puntos a favor del uso del análisis parcial, destacando que el análisis completo no es un proceso robusto debido a que no siempre se tiene un árbol sintáctico general.
    • La concordancia de patrones, una vez que los fragmentos del texto han sido etiquetados de forma sintáctica (llamados frases constituyentes), el sistema puede determinar dependencias específicas al dominio de extracción entre los constituyentes (i.e. decidir que información debe ser extraída). Para determinar tales dependencias simplemente se aplica un emparejamiento de patrones, esto es, patrones específicos del dominio (conocidos como patrones de extracción) son usados para identificar la información relevante así como dependencias entre los mismos constituyentes. Tradicionalmente la manera de obtener los patrones de extracción era de forma manual por ingenieros del conocimiento y expertos en el dominio, en la actualidad varias técnicas empíricas están siendo empleadas para automatizar el proceso (en la sección Aprendizaje Automático en la Extracción de Información se profundiza en el tema). Finalmente cabe destacar que la representación de los patrones de extracción no es estándar, i.e. difiere de acuerdo a la metodología usada en el sistema de extracción de información.
    • Las relaciones gramaticales, al igual que en la concordancia de patrones el objetivo es determinar las dependencias entre los constituyentes; pero, en lugar de emplear patrones de extracción se utiliza un modelo sintáctico más flexible. El modelo consiste en definir un conjunto de relaciones gramaticales entre las entidades, estas relaciones generalizan aspectos como tiempo, lugar, sujeto, objeto, entre otras. Para representar el modelo se utiliza un grafo donde los nodos representan las partes de los constituyentes y los arcos etiquetados representan las relaciones entre éstos.
  3. El análisis del discurso, que se ocupa de resolver aspectos semánticos como son: la elipsis (i.e., omitir en la oración una o más palabras) y la anáfora (i.e., asumir el significado de una parte del discurso ya emitida). Para esto, los sistemas de extracción de información generalmente proceden de dos formas:
    • Representar la información extraída como plantillas llenadas parcialmente y posteriormente usar algún procedimiento de fusión.
    • Representar la información extraída como formas lógicas para usar procedimientos tradicionales de interpretación semántica.
  4. La generación de plantillas de salida, donde el propósito es enlazar las piezas de información extraídas con el formato de salida deseado. Sin embargo, en esta fase puede requerirse algún tipo de inferencia, la cual es provocada por restricciones específicas del dominio para la estructura de salida, por ejemplo:
    • Registros que toman valores desde un conjunto predefinido.
    • Registros que deben ser normalizados, por ejemplo fechas.
    • Registros que son obligados a ser llenados, en contraste con los registros opcionales que pueden bien no tener piezas de información asignadas.
    • Existencia de diferentes plantillas de extracción para ciertas clases de información.


Información extraida de la tesis "Extracción de Información con Algoritmos de Clasificación" por ALBERTO TÉLLEZ VALERO.