Az indexelési folyamat ismertetése
Az indexelési folyamat úgy működik, hogy minden indexelt entitáshoz létrehoz egy dokumentumot . Az indexelés során a bővítési folyamat iteratív módon hozza létre az adatforrás metaadatait összevonó dokumentumokat a kognitív képességek által kinyert bővített mezőkkel. Minden indexelt dokumentumot JSON-struktúraként tekinthet, amely kezdetben egy olyan dokumentumból áll, amely a közvetlenül a forrásadatokból kinyert mezőkre leképezett indexmezőkkel rendelkezik, például a következőhöz hasonlóan:
- Dokumentum
- metadata_storage_name
- metadata_author
- Tartalom
Ha az adatforrás dokumentumai képeket tartalmaznak, konfigurálhatja az indexelőt a képadatok kinyerésére, és az egyes képeket egy normalized_images gyűjteménybe helyezheti, az alábbi módon:
- Dokumentum
- metadata_storage_name
- metadata_author
- Tartalom
- normalized_images
- kép0
- image1
A képadatok ily módon történő normalizálásával a képek gyűjteményét használhatja bemenetként a képadatokból információt kinyerő képességekhez.
Minden képesség mezőket ad hozzá a dokumentumhoz, így például egy olyan képesség, amely észleli a dokumentum írási nyelvét , a kimenetét egy nyelvmezőben tárolhatja, például a következőhöz hasonlóan:
- Dokumentum
- metadata_storage_name
- metadata_author
- Tartalom
- normalized_images
- kép0
- image1
- Nyelv
A dokumentum hierarchikusan strukturált, és a képességeket a rendszer a hierarchia egy adott környezetére alkalmazza, lehetővé téve, hogy az egyes elemekhez tartozó képességeket a dokumentum egy adott szintjén futtassa. Futtathat például egy optikai karakterfelismerési (OCR) képességet a normalizált képgyűjtemény minden képéhez, hogy kinyerje az általuk tartalmazott szöveget:
- Dokumentum
- metadata_storage_name
- metadata_author
- Tartalom
- normalized_images
- kép0
- Szöveg
- image1
- Szöveg
- kép0
- Nyelv
Az egyes képességek kimeneti mezői a folyamat későbbi részében más készségek bemeneteiként is használhatók, amelyek a kimeneteket a dokumentumszerkezetben tárolják. Egy egyesítési képesség használatával például egyesíthetjük az eredeti szöveges tartalmat az egyes képekből kinyert szöveggel egy új merged_content mező létrehozásához, amely tartalmazza a dokumentum összes szövegét, beleértve a képszöveget is.
- Dokumentum
- metadata_storage_name
- metadata_author
- Tartalom
- normalized_images
- kép0
- Szöveg
- image1
- Szöveg
- kép0
- Nyelv
- merged_content
A folyamat végén lévő végső dokumentumstruktúra mezőit az indexelő két módon rendeli indexmezőkhöz:
- A forrásadatokból közvetlenül kinyert mezők mindegyike indexmezőkre van leképezve. Ezek a leképezések lehetnek implicitek (a mezők automatikusan leképezhetők az indexben azonos nevű mezőkre) vagy explicit (a leképezés úgy van meghatározva, hogy egy forrásmezőt egy indexmezővel egyezzen, gyakran azért, hogy a mezőt valami hasznosabbra nevezze át, vagy hogy függvényt alkalmazzon a leképezett adatértékre).
- A képességkészletben lévő készségek kimeneti mezői explicit módon vannak leképezve a kimenet hierarchikus helyéről az index célmezőjére.