了解索引處理序
編製索引程序的運作方式是為每個索引實體建立 檔 。 在編製索引期間,擴充管線會反覆地建置文件,其將資料來源的中繼資料與認知技能所擷取的擴充欄位合併。 您可以將每個已編製過索引的文件視為 JSON 結構,一開始由文件所組成,而其索引欄位已對應至直接擷取自來源資料的欄位,如下所示:
- 文件
- 元數據存儲名稱
- metadata_author
- 內容
當數據來源中的檔包含影像時,您可以設定索引器來擷取影像數據,並將每個影像放在 normalized_images 集合中,如下所示:
- 文件
- 元數據存儲名稱
- metadata_author
- 內容
- normalized_images
- image0
- image1
以這種方式正規化影像數據可讓您使用影像集合作為從影像數據擷取資訊的技能輸入。
每個技能都會將欄位新增至 檔,例如偵測檔寫入 語言 的技能,可能會將其輸出儲存在 語言 欄位中,如下所示:
- 文件
- 元數據存儲名稱
- metadata_author
- 內容
- normalized_images
- image0
- image1
- 語言
檔會以階層方式結構化,且技能會套用至階層內的特定 內容 ,讓您能夠在檔的特定層級執行每個專案的技能。 例如,您可以針對標準化影像集合中的每個影像執行光學字元辨識 (OCR) 技能,以擷取其包含的任何文字:
- 文件
- 元數據存儲名稱
- metadata_author
- 內容
- normalized_images
- image0
- 文字
- image1
- 文字
- image0
- 語言
每項技能的輸出欄位都可用於作為管線中其他技能的輸入,接著將「這些技能」的輸出儲存於文件結構中。 例如,我們可以使用 合併 技能,將原始文字內容與從每個影像擷取的文字結合,以建立新的 merged_content 字段,其中包含檔中的所有文字,包括影像文字。
- 文件
- 元數據存儲名稱
- metadata_author
- 內容
- normalized_images
- image0
- 文字
- image1
- 文字
- image0
- 語言
- merged_content
索引器會使用下列兩種方式之一,將管線結尾最終文件結構內的欄位,對應至索引欄位:
- 直接從源數據擷取的欄位都會對應至索引字段。 這些對應可以是 隱含 的(欄位會自動對應至索引中具有相同名稱的欄位)或 明確 對應(已定義對應以比對來源字段與索引字段,通常會將欄位重新命名為更有用的東西,或將函式套用至對應的數據值)。
- 技能集中技能的輸出欄位,會明確地從其在輸出中的階層式位置,對應至索引中的目標欄位。