Az indexelési folyamat ismertetése

5 perc

Az indexelési folyamat úgy működik, hogy minden indexelt entitáshoz létrehoz egy dokumentumot . Az indexelés során a bővítési folyamat iteratív módon hozza létre az adatforrás metaadatait összevonó dokumentumokat a kognitív képességek által kinyert bővített mezőkkel. Minden indexelt dokumentumot JSON-struktúraként tekinthet, amely kezdetben egy olyan dokumentumból áll, amely a közvetlenül a forrásadatokból kinyert mezőkre leképezett indexmezőkkel rendelkezik, például a következőhöz hasonlóan:

Dokumentum
- metadata_storage_name
- metadata_author
- Tartalom

Ha az adatforrás dokumentumai képeket tartalmaznak, konfigurálhatja az indexelőt a képadatok kinyerésére, és az egyes képeket egy normalized_images gyűjteménybe helyezheti, az alábbi módon:

Dokumentum
- metadata_storage_name
- metadata_author
- Tartalom
- normalized_images
  - kép0
  - image1

A képadatok ily módon történő normalizálásával a képek gyűjteményét használhatja bemenetként a képadatokból információt kinyerő képességekhez.

Minden képesség mezőket ad hozzá a dokumentumhoz, így például egy olyan képesség, amely észleli a dokumentum írási nyelvét , a kimenetét egy nyelvmezőben tárolhatja, például a következőhöz hasonlóan:

Dokumentum
- metadata_storage_name
- metadata_author
- Tartalom
- normalized_images
  - kép0
  - image1
- Nyelv

A dokumentum hierarchikusan strukturált, és a képességeket a rendszer a hierarchia egy adott környezetére alkalmazza, lehetővé téve, hogy az egyes elemekhez tartozó képességeket a dokumentum egy adott szintjén futtassa. Futtathat például egy optikai karakterfelismerési (OCR) képességet a normalizált képgyűjtemény minden képéhez, hogy kinyerje az általuk tartalmazott szöveget:

Dokumentum
- metadata_storage_name
- metadata_author
- Tartalom
- normalized_images
  - kép0
    - Szöveg
  - image1
    - Szöveg
- Nyelv

Az egyes képességek kimeneti mezői a folyamat későbbi részében más készségek bemeneteiként is használhatók, amelyek a kimeneteket a dokumentumszerkezetben tárolják. Egy egyesítési képesség használatával például egyesíthetjük az eredeti szöveges tartalmat az egyes képekből kinyert szöveggel egy új merged_content mező létrehozásához, amely tartalmazza a dokumentum összes szövegét, beleértve a képszöveget is.

Dokumentum
- metadata_storage_name
- metadata_author
- Tartalom
- normalized_images
  - kép0
    - Szöveg
  - image1
    - Szöveg
- Nyelv
- merged_content

A folyamat végén lévő végső dokumentumstruktúra mezőit az indexelő két módon rendeli indexmezőkhöz:

A forrásadatokból közvetlenül kinyert mezők mindegyike indexmezőkre van leképezve. Ezek a leképezések lehetnek implicitek (a mezők automatikusan leképezhetők az indexben azonos nevű mezőkre) vagy explicit (a leképezés úgy van meghatározva, hogy egy forrásmezőt egy indexmezővel egyezzen, gyakran azért, hogy a mezőt valami hasznosabbra nevezze át, vagy hogy függvényt alkalmazzon a leképezett adatértékre).
A képességkészletben lévő készségek kimeneti mezői explicit módon vannak leképezve a kimenet hierarchikus helyéről az index célmezőjére.

Folytatás

Az indexelési folyamat ismertetése

Visszajelzés