Informazioni sul processo di indicizzazione
Il processo di indicizzazione funziona creando un documento per ogni entità indicizzata. Durante l'indicizzazione, una pipeline di arricchimento crea in modo iterativo i documenti che combinano metadati dall'origine dati con campi arricchiti estratti dalle competenze cognitive. È possibile considerare ogni documento indicizzato come una struttura JSON, che inizialmente è costituita da un documento con i campi di indice mappati ai campi estratti direttamente dai dati di origine, come illustrato di seguito:
- documento
- nome_archiviazione_metadati
- metadata_author
- contenuto
Quando i documenti nell'origine dati contengono immagini, è possibile configurare l'indicizzatore per estrarre i dati dell'immagine e inserire ogni immagine in una raccolta normalized_images , come illustrato di seguito:
- documento
- nome_archiviazione_metadati
- metadata_author
- contenuto
- normalized_images
- image0
- image1
La normalizzazione dei dati dell'immagine in questo modo consente di usare la raccolta di immagini come input per le competenze che estraggono informazioni dai dati dell'immagine.
Ogni competenza aggiunge campi al documento, ad esempio una competenza che rileva la lingua in cui viene scritto un documento potrebbe archiviare l'output in un campo linguistico , come illustrato di seguito:
- documento
- nome_archiviazione_metadati
- metadata_author
- contenuto
- normalized_images
- image0
- image1
- lingua
Il documento è strutturato in modo gerarchico e le competenze vengono applicate a un contesto specifico all'interno della gerarchia, consentendo di eseguire la competenza per ogni elemento a un determinato livello del documento. Ad esempio, è possibile eseguire una funzione OCR (Optical Character Recognition) per ogni immagine nella raccolta di immagini normalizzate per estrarre eventuali testi contenuti.
- documento
- nome_archiviazione_metadati
- metadata_author
- contenuto
- normalized_images
- image0
- Text
- image1
- Text
- image0
- lingua
I campi di output di ogni competenza possono essere usati come input per altre competenze più avanti nella pipeline, che a loro volta archiviano gli output nella struttura del documento. Ad esempio, è possibile usare una competenza di unione per combinare il contenuto di testo originale con il testo estratto da ogni immagine per creare un nuovo campo merged_content che contiene tutto il testo del documento, incluso il testo dell'immagine.
- documento
- nome_archiviazione_metadati
- metadata_author
- contenuto
- normalized_images
- image0
- Text
- image1
- Text
- image0
- lingua
- contenuto_unito
I campi nella struttura del documento finale alla fine della pipeline vengono mappati ai campi di indice dall'indicizzatore in uno dei due modi seguenti:
- I campi estratti direttamente dai dati di origine sono tutti mappati ai campi di indice. Questi mapping possono essere impliciti (i campi vengono mappati automaticamente a nei campi con lo stesso nome nell'indice) o espliciti (un mapping viene definito in modo che corrisponda a un campo di origine a un campo di indice, spesso per rinominare il campo in qualcosa di più utile o per applicare una funzione al valore di dati mappato).
- I campi di output delle competenze nel set di competenze vengono mappati in modo esplicito dalla posizione gerarchica nell'output al campo di destinazione nell'indice.