Az indexelési folyamat ismertetése

Befejeződött

Az indexelési folyamat úgy működik, hogy minden indexelt entitáshoz létrehoz egy dokumentumot . Az indexelés során a bővítési folyamat iteratív módon hozza létre az adatforrás metaadatait összevonó dokumentumokat a kognitív képességek által kinyert bővített mezőkkel. Minden indexelt dokumentumot JSON-struktúraként tekinthet, amely kezdetben egy olyan dokumentumból áll, amely a közvetlenül a forrásadatokból kinyert mezőkre leképezett indexmezőkkel rendelkezik, például a következőhöz hasonlóan:

  • Dokumentum
    • metadata_storage_name
    • metadata_author
    • Tartalom

Ha az adatforrás dokumentumai képeket tartalmaznak, konfigurálhatja az indexelőt a képadatok kinyerésére, és az egyes képeket egy normalized_images gyűjteménybe helyezheti, az alábbi módon:

  • Dokumentum
    • metadata_storage_name
    • metadata_author
    • Tartalom
    • normalized_images
      • kép0
      • image1

A képadatok ily módon történő normalizálásával a képek gyűjteményét használhatja bemenetként a képadatokból információt kinyerő képességekhez.

Minden képesség mezőket ad hozzá a dokumentumhoz, így például egy olyan képesség, amely észleli a dokumentum írási nyelvét , a kimenetét egy nyelvmezőben tárolhatja, például a következőhöz hasonlóan:

  • Dokumentum
    • metadata_storage_name
    • metadata_author
    • Tartalom
    • normalized_images
      • kép0
      • image1
    • Nyelv

A dokumentum hierarchikusan strukturált, és a képességeket a rendszer a hierarchia egy adott környezetére alkalmazza, lehetővé téve, hogy az egyes elemekhez tartozó képességeket a dokumentum egy adott szintjén futtassa. Futtathat például egy optikai karakterfelismerési (OCR) képességet a normalizált képgyűjtemény minden képéhez, hogy kinyerje az általuk tartalmazott szöveget:

  • Dokumentum
    • metadata_storage_name
    • metadata_author
    • Tartalom
    • normalized_images
      • kép0
        • Szöveg
      • image1
        • Szöveg
    • Nyelv

Az egyes képességek kimeneti mezői a folyamat későbbi részében más készségek bemeneteiként is használhatók, amelyek a kimeneteket a dokumentumszerkezetben tárolják. Egy egyesítési képesség használatával például egyesíthetjük az eredeti szöveges tartalmat az egyes képekből kinyert szöveggel egy új merged_content mező létrehozásához, amely tartalmazza a dokumentum összes szövegét, beleértve a képszöveget is.

  • Dokumentum
    • metadata_storage_name
    • metadata_author
    • Tartalom
    • normalized_images
      • kép0
        • Szöveg
      • image1
        • Szöveg
    • Nyelv
    • merged_content

A folyamat végén lévő végső dokumentumstruktúra mezőit az indexelő két módon rendeli indexmezőkhöz:

  1. A forrásadatokból közvetlenül kinyert mezők mindegyike indexmezőkre van leképezve. Ezek a leképezések lehetnek implicitek (a mezők automatikusan leképezhetők az indexben azonos nevű mezőkre) vagy explicit (a leképezés úgy van meghatározva, hogy egy forrásmezőt egy indexmezővel egyezzen, gyakran azért, hogy a mezőt valami hasznosabbra nevezze át, vagy hogy függvényt alkalmazzon a leképezett adatértékre).
  2. A képességkészletben lévő készségek kimeneti mezői explicit módon vannak leképezve a kimenet hierarchikus helyéről az index célmezőjére.