共用方式為


最佳做法:產生標記的資料集

此內容適用於:勾選記號 v4.0 (預覽版) | 舊版:blue-checkmark v3.1 (GA) blue-checkmark v3.0 (GA)

重要

產生已標記資料集的最佳做法僅適用於自訂範本和自訂神經模型,適用於自訂生成式,請參閱自訂生成式

自訂模型 (範本和神經) 需要至少五個文件的已標記資料集才能定型模型。 已標記資料集的品質會影響定型模型的正確性。 本指南可透過組合不同的資料集來協助您深入了解如何產生具有高正確性的模型,並提供標記文件的最佳做法。

了解已標記資料集的元件

已標記的資料集包含數個檔案:

  • 您需要提供一組範例文件 (通常是 PDF 或影像)。 至少需要五個文件才能定型模型。

  • 此外,標記程序會產生下列檔案:

    • 新增第一個欄位時,就會建立 fields.json 檔案。 整個定型資料集有一個 fields.json 檔案,欄位清單包含欄位名稱與相關聯的子欄位和類型。

    • Studio 會透過版面配置 API 執行每個文件。 資料集中每個範例檔案的配置回應會新增為 {file}.ocr.json。 當標記特定文字範圍時,會使用版面配置回應來產生欄位標籤。

    • 在文件中標記欄位時,就會建立或更新 {file}.labels.json 檔案。 標籤檔案包含文字範圍,以及使用者新增為特定欄位值之每個文字範圍的版面配置輸出中相關聯的多邊形。

影片:自訂標籤提示和指標

  • 下列影片是兩個簡報中的第一個,旨在協助您建置具有較高正確性的自訂模型 (第二個簡報會檢查標記文件的最佳做法)。

  • 我們會探索如何建立平衡的資料集,並選取要標記的正確文件。 此程序會將協助您建置更高品質的模型。

建立平衡的資料集

開始標記之前,最好先查看文件的幾個不同範例,以識別您想要在已標記資料集中使用的範例。 平衡的資料集代表您預期針對文件看到的所有一般變化。 建立平衡的資料集會導致模型具有最高可能的正確性。 可以考慮的幾個範例包括:

  • 文件格式:如果您預期同時分析數位和掃描的文件,請在定型資料集中新增一些每種類型的範例。

  • 變化 (範本模型):請考慮將資料集分割成資料夾,並針對每個變化定型模型。 包含結構或版面配置的任何變化都應該分割成不同的模型。 然後,您可以將個別模型組合為單一組成模型

  • 變化 (神經模型):當資料集有一組大約 15 種或更少的可管理變化時,請建立單一資料集,其中包含每個不同變化的一些範例,以定型單一模型。 如果範本變化的數目大於 15,您可以定型多個模型並將其組合在一起。

  • 資料表:對於包含具有可變資料列數目之資料表的文件,請確定定型資料集也代表具有不同資料列數目的文件。

  • 多頁資料表:當資料表跨越多個頁面時,請標記單一資料表。 將文件新增至定型資料集,其中顯示預期的變化;只有單一頁面上具有資料表的文件,以及資料表跨越兩個以上已標記所有資料列頁面的文件。

  • 選擇性欄位:如果您的資料集包含具有選擇性欄位的文件,請驗證定型資料集是否有一些顯示選項的文件。

從識別欄位開始

花一點時間找出您打算在資料集中標記的每個欄位。 請留意選擇性欄位。 使用最符合支援類型的標籤來定義欄位。

使用下列指導方針來定義欄位:

  • 針對自訂神經模型,請針對欄位使用語意相關的名稱。 例如,如果擷取的值是 Effective Date,請將其命名為 effective_dateEffectiveDate,而非 date1 之類的一般名稱。

  • 在理想情況下,請使用 Pascal 或駝峰式大小寫為您的欄位命名。

  • 如果值是視覺化重複結構的一部分,且您只需要單一值,請將其標記為資料表,並在後續處理期間擷取必要的值。

  • 針對跨越多個頁面的表格式欄位,請將欄位定義為單一資料表並予以標記。

注意

自訂類神經模型與自訂範本模型共用相同的標籤格式和策略。 目前,自訂類神經模型僅支援自訂範本模型所支援的一部分欄位類型。

模型功能

自訂神經模型目前僅支援機碼值組、結構化欄位 (資料表) 和選取標記。

模型類型 表單欄位 選取標記 表格式欄位 簽章 區域 重疊欄位
自訂神經 ✔️支援 ✔️支援 ✔️支援 不支援 ✔️支援1 ✔️支援2
自訂範本 ✔️支援 ✔️支援 ✔️支援 ✔️支援 ✔️支援 不支援

1 區域標記實作在範本和神經模型之間有所不同。 對於範本模型,如果標記的區域中找不到任何文字,定型程序會在定型時插入合成資料。 使用神經模型時,不會插入任何綜合文字,且已辨識的文字會如常使用。
2 從 API 第 2024-02-29-preview 版和更新版本開始,支援重疊欄位。 重疊欄位有一些限制。 如需詳細資訊,請參閱重疊欄位

表格式欄位

從 API 版本 2022-06-30-preview 開始,自訂神經模型支援表格式欄位 (資料表)。 使用 API 版本 2022-06-30-preview 或更新版本定型的模型將接受表格式欄位標籤,而使用 API 版本 2022-06-30-preview 或更新版本模型分析的文件,將在 analyzeResult 物件結果 documents 區段的輸出中產生表格式欄位。

表格式欄位預設支援跨頁資料表。 若要將跨越多個頁面的資料表加上標籤,請在單一資料表中跨不同頁面來標記資料表的每個資料列。 最佳做法是確保資料集包含預期變化的幾個樣本。 例如,包含兩個範例,其中整個資料表位於單一頁面上,以及跨越兩個以上頁面的資料表範例。

在文件內擷取無法辨識為資料表的重複資訊時,表格式欄位也很有用。 例如,在履歷表中,一段重複的工作經驗可以標示並擷取為表格式欄位。

注意

表格欄位在標記後會被擷取為回應的 documents 區段的一部分。 回應也包含一個 tables 區段,其中包含版面配置模型從文件中擷取的表格。 如果您已將某個欄位標記為表格,請在回應的文件區段中尋找該欄位。

標記指導方針

  • 需要標記值。 請勿包含周圍文字。 例如,標記核取方塊時,命名欄位以指出核取方塊選取範圍 (例如 selectionYesselectionNo),而非標記文件中的「是」或「否」文字。

  • 請勿提供交錯欄位值。 一個欄位的單字和/或區域值必須是自然閱讀順序的連續序列。

  • 一致的標記。 如果值出現在文件內的多個內容中,請一致地跨越文件挑選相同的內容來標記值。

  • 以視覺化方式重複資料。 資料表支援以視覺化方式重複的資訊群組,而不只是明確的資料表。 明確的資料表會在分析文件的資料表區段中識別為版面配置輸出的一部分,且不需要標記為資料表。 只有在資訊以視覺方式重複且未識別為資料表作為版面配置回應的一部分時,才會標記資料表欄位。 例如,履歷表的重複工作經歷區段。

  • 區域標記 (自訂範本)。 標記特定區域可讓您在值不存在時定義一個值。 如果此值是選擇性的,請確定您保留一些具有未標記區域的範例文件。 標記區域時,請勿將周圍文字納入標籤。

  • 重疊欄位 (自訂神經)。 使用區域標記來標記欄位重疊。 請確定您至少有一個樣本來描述欄位如何在您的訓練資料集中重疊。

下一步