Descripción del proceso de indexación

Completado

El proceso de indexación funciona mediante la creación de un documento para cada entidad indizada. Durante la indexación, una canalización de enriquecimiento compila de forma iterativa los documentos que combinan metadatos del origen de datos con campos enriquecidos extraídos por aptitudes cognitivas. Puede pensar en cada documento indexado como una estructura JSON, que inicialmente consta de un documento con los campos de índice que se han asignado a los campos extraídos directamente de los datos de origen, de la siguiente manera:

  • documento
    • metadata_storage_name
    • metadata_author
    • contenido

Cuando los documentos del origen de datos contienen imágenes, puede configurar el indexador para extraer los datos de imagen y colocar cada imagen en una colección de normalized_images , de la siguiente manera:

  • documento
    • metadata_storage_name
    • metadata_author
    • contenido
    • normalized_images
      • image0
      • image1

Normalizar los datos de imagen de esta manera permite usar la colección de imágenes como entrada para aptitudes que extraen información de los datos de imagen.

Cada aptitud agrega campos al documento, por lo que, por ejemplo, una aptitud que detecta el idioma en el que se escribe un documento podría almacenar su salida en un campo de idioma , de la siguiente manera:

  • documento
    • nombre_de_almacenamiento_de_metadatos
    • metadata_author
    • contenido
    • normalized_images
      • image0
      • image1
    • en

El documento se estructura jerárquicamente y las aptitudes se aplican a un contexto específico dentro de la jerarquía, lo que le permite ejecutar la aptitud para cada elemento en un nivel determinado del documento. Por ejemplo, podría ejecutar una aptitud de reconocimiento óptico de caracteres (OCR) para cada imagen de la colección de imágenes normalizadas para extraer cualquier texto que contenga:

  • documento
    • metadata_storage_name
    • metadata_author
    • contenido
    • normalized_images
      • image0
        • Texto
      • image1
        • Texto
    • en

Los campos de salida de cada aptitud se pueden usar como entradas para otras aptitudes más adelante en la canalización, que a su vez almacenan sus salidas en la estructura del documento. Por ejemplo, podríamos usar una habilidad de combinación para combinar el contenido de texto original con el texto extraído de cada imagen para crear un nuevo campo merged_content que contenga todo el texto del documento, incluyendo el texto de las imágenes.

  • documento
    • metadata_storage_name
    • metadata_author
    • contenido
    • normalized_images
      • image0
        • Texto
      • image1
        • Texto
    • en
    • merged_content

El indexador asigna los campos de la estructura final del documento al final de la canalización a los campos de índice de una de estas dos maneras:

  1. Los campos extraídos directamente de los datos de origen se asignan a los campos de índice. Estas asignaciones pueden ser implícitas (los campos se asignan automáticamente a en campos con el mismo nombre en el índice) o explícitos (se define una asignación para que coincida con un campo de origen con un campo de índice, a menudo para cambiar el nombre del campo a algo más útil o para aplicar una función al valor de datos a medida que se asigna).
  2. Los campos de salida de las aptitudes del conjunto de aptitudes se asignan de forma explícita desde su ubicación jerárquica en la salida al campo de destino del índice.