Descripción del proceso de indexación

Completado

El proceso de indexación funciona mediante la creación de un documento para cada entidad indizada. Durante la indexación, una canalización de enriquecimiento crea de forma iterativa los documentos que combinan metadatos del origen de datos con campos enriquecidos extraídos por las aptitudes cognitivas. Cada documento indizado se puede considerar como una estructura JSON, que inicialmente consta de un documento con los campos del índice que ha asignado a los campos extraídos directamente de los datos de origen; por ejemplo:

  • document
    • metadata_storage_name
    • metadata_author
    • content

Cuando los documentos del origen de datos contienen imágenes, puede configurar el indexador para que extraiga los datos de las imágenes y coloque cada imagen en una colección normalized_images; por ejemplo, de la siguiente manera:

  • document
    • metadata_storage_name
    • metadata_author
    • content
    • normalized_images
      • image0
      • image1

La normalización de los datos de las imágenes de esta manera le permite usar la colección de imágenes como una entrada para las aptitudes que extraen información a partir de datos de imagen.

Cada aptitud agrega campos al documento, por lo que, por ejemplo, una aptitud que detecta el idioma en el que está escrito un documento podría almacenar su salida en un campo language de la siguiente manera:

  • document
    • metadata_storage_name
    • metadata_author
    • content
    • normalized_images
      • image0
      • image1
    • language

El documento está estructurado jerárquicamente y las aptitudes se aplican a un contexto específico dentro de la jerarquía, lo que le permite ejecutar la aptitud para cada elemento en un nivel determinado del documento. Por ejemplo, podría ejecutar una aptitud de reconocimiento óptico de caracteres (OCR) para cada imagen de la colección de imágenes normalizadas a fin de extraer el texto que contengan:

  • document
    • metadata_storage_name
    • metadata_author
    • content
    • normalized_images
      • image0
        • Texto
      • image1
        • Texto
    • language

Los campos de salida de cada aptitud se pueden usar más adelante en la canalización como entradas para otras aptitudes que, a su vez, almacenan sus salidas en la estructura del documento. Por ejemplo, se podría usar una aptitud de combinación para combinar el contenido de texto original con el texto extraído de cada imagen para crear un campo merged_content que contenga todo el texto del documento, incluido el de la imagen.

  • document
    • metadata_storage_name
    • metadata_author
    • content
    • normalized_images
      • image0
        • Texto
      • image1
        • Texto
    • language
    • merged_content

El indexador asigna los campos de la estructura final del documento al final de la canalización a los campos de índice de una de estas dos maneras:

  1. Los campos extraídos directamente de los datos de origen se asignan a campos de índice. Estas asignaciones pueden ser implícitas (los campos se asignan automáticamente en campos con el mismo nombre en el índice) o explícitas (se define una asignación para hacer coincidir un campo de origen con un campo de índice, a menudo para cambiar el nombre del campo por algo más útil, o bien para aplicar una función al valor de datos a medida que se asigna).
  2. Los campos de salida de las aptitudes del conjunto de aptitudes se asignan de forma explícita desde su ubicación jerárquica en la salida al campo de destino del índice.