Förstå indexeringsprocessen

Slutförd

Indexeringsprocessen fungerar genom att skapa ett dokument för varje indexerad entitet. Under indexeringen bygger en berikningspipeline iterativt de dokument som kombinerar metadata från datakällan med berikade fält som extraherats av kognitiva färdigheter. Du kan se varje indexerat dokument som en JSON-struktur, som inledningsvis består av ett dokument med de indexfält som du har mappat till fält som extraherats direkt från källdata, så här:

  • Dokument
    • metadata_storage_name
    • metadata_author
    • Innehåll

När dokumenten i datakällan innehåller bilder kan du konfigurera indexeraren att extrahera bilddata och placera varje bild i en normalized_images samling, så här:

  • Dokument
    • metadata_storage_name
    • metadata_author
    • Innehåll
    • normalized_images
      • image0
      • image1

Genom att normalisera bilddata på det här sättet kan du använda samlingen av bilder som indata för kunskaper som extraherar information från bilddata.

Varje färdighet lägger till fält i dokumentet, så till exempel kan en färdighet som identifierar språket där ett dokument skrivs lagra sina utdata i ett språkfält, så här:

  • Dokument
    • metadata_storage_name
    • metadata_author
    • Innehåll
    • normalized_images
      • image0
      • image1
    • Språk

Dokumentet är strukturerat hierarkiskt och färdigheterna tillämpas på en specifik kontext i hierarkin, så att du kan köra färdigheten för varje objekt på en viss nivå i dokumentet. Du kan till exempel köra en ocr-färdighet (optisk teckenigenkänning) för varje bild i samlingen normaliserade bilder för att extrahera all text som de innehåller:

  • Dokument
    • metadata_storage_name
    • metadata_author
    • Innehåll
    • normalized_images
      • image0
        • Text
      • image1
        • Text
    • Språk

Utdatafälten från varje färdighet kan användas som indata för andra kunskaper senare i pipelinen, som i sin tur lagrar sina utdata i dokumentstrukturen. Vi kan till exempel använda en sammanslagningsfärdighet för att kombinera det ursprungliga textinnehållet med texten som extraheras från varje bild för att skapa ett nytt merged_content fält som innehåller all text i dokumentet, inklusive bildtext.

  • Dokument
    • metadata_storage_name
    • metadata_author
    • Innehåll
    • normalized_images
      • image0
        • Text
      • image1
        • Text
    • Språk
    • merged_content

Fälten i den slutliga dokumentstrukturen i slutet av pipelinen mappas till indexfält av indexeraren på något av två sätt:

  1. Fält som extraheras direkt från källdata mappas till indexfält. Dessa mappningar kan vara implicita (fält mappas automatiskt till i fält med samma namn i indexet) eller explicita (en mappning definieras för att matcha ett källfält till ett indexfält, ofta för att byta namn på fältet till något mer användbart eller för att tillämpa en funktion på datavärdet när det mappas).
  2. Utdatafält från färdigheterna i kompetensuppsättningen mappas uttryckligen från deras hierarkiska plats i utdata till målfältet i indexet.