Vysvětlení procesu indexování

Dokončeno

Proces indexování funguje vytvořením dokumentu pro každou indexovanou entitu. Během indexování kanál rozšiřování iterativním způsobem sestaví dokumenty, které kombinují metadata ze zdroje dat s obohacenými poli extrahovanými kognitivními dovednostmi. Každý indexovaný dokument si můžete představit jako strukturu JSON, která se zpočátku skládá z dokumentu s poli indexu, která jste namapovali na pole extrahovaná přímo ze zdrojových dat, například takto:

  • dokument
    • metadata_storage_name
    • metadata_author
    • obsah

Když dokumenty ve zdroji dat obsahují obrázky, můžete indexer nakonfigurovat tak, aby extrahovali data obrázku a umístili každý obrázek do normalized_images kolekce, například takto:

  • dokument
    • metadata_storage_name
    • metadata_author
    • obsah
    • normalized_images
      • image0
      • obrázek 1

Normalizace dat obrázků tímto způsobem umožňuje používat kolekci obrázků jako vstup pro dovednosti, které extrahují informace z dat obrázků.

Každá dovednost přidá do dokumentu pole, takže například dovednost, která rozpozná jazyk , ve kterém je dokument napsaný, může uložit svůj výstup do pole jazyka , například takto:

  • dokument
    • metadata_storage_name
    • metadata_author
    • obsah
    • normalized_images
      • image0
      • obrázek 1
    • Jazyk

Dokument je strukturovaný hierarchicky a dovednosti se použijí na konkrétní kontext v hierarchii, což vám umožní spouštět dovednosti pro každou položku na konkrétní úrovni dokumentu. Můžete například spustit dovednost optického rozpoznávání znaků (OCR) pro každý obrázek v normalizované kolekci obrázků, abyste extrahovali jakýkoli text, který obsahují:

  • dokument
    • metadata_storage_name
    • metadata_author
    • obsah
    • normalized_images
      • image0
        • Text
      • obrázek 1
        • Text
    • Jazyk

Výstupní pole z jednotlivých dovedností lze použít jako vstupy pro další dovednosti později v procesu, které pak ukládají své výstupy ve struktuře dokumentu. Pomocí dovednosti sloučení bychom mohli například zkombinovat původní textový obsah s textem extrahovaným z každého obrázku a vytvořit nové pole merged_content obsahující veškerý text v dokumentu, včetně textu obrázku.

  • dokument
    • metadata_storage_name
    • metadata_author
    • obsah
    • normalized_images
      • image0
        • Text
      • obrázek 1
        • Text
    • Jazyk
    • spojený_obsah

Pole ve finální struktuře dokumentu na konci procesu jsou indexátorem mapována na indexová pole jedním ze dvou způsobů:

  1. Pole extrahovaná přímo ze zdrojových dat se mapují na pole indexu. Tato mapování můžou být implicitní (pole se automaticky mapují na pole se stejným názvem v indexu) nebo explicitní (mapování se definuje tak, aby odpovídalo zdrojovému poli s indexovým polem, často kvůli přejmenování pole na něco užitečnějšího nebo použití funkce na hodnotu dat při mapování).
  2. Výstupní pole z dovedností v sadě dovedností se explicitně mapují z jejich hierarchického umístění ve výstupu na cílové pole v indexu.