建置及訓練自訂分類模型

此內容適用於:複選標記v4.0 (預覽) | 舊版:blue-checkmarkv3.1 (GA)blue-checkmarkv3.0 (GA)

重要

自訂分類模型目前為公開預覽。 根據使用者意見反應,功能、方法和流程在正式發行 (GA) 前可能有所變更。

自訂分類模型可將輸入檔中的每個頁面分類,以識別其中的文件。 分類器模型也可以識別輸入檔中單一文件的多個文件或多個執行個體。 Document Intelligence 自訂模型需要每個文件類別至少有五個訓練文件才能開始使用。 若要開始訓練自訂分類模型,每個類別需要至少有五個文件兩個類別的文件。

自訂分類模型輸入需求

確定訓練資料集遵 Document Intelligence 的輸入需求。

  • 若要得到最佳結果,請為每個文件提供一張清晰的照片或高畫質的掃描檔案。

  • 支援的檔案格式:

    模型 PDF 圖片:
    JPEG/JPG、PNG、BMP、TIFF、HEIF
    Microsoft Office:
    Word(DOCX)、Excel(XLSX)、PowerPoint(PPTX)和 HTML
    參閱
    版面配置 ✔ (2024-02-29-preview, 2023-10-31-preview)
    一般文件
    預建
    自訂擷取
    自訂分類 ✔ (2024-02-29-preview)
  • 若使用 PDF 和 TIFF,最多可處理 2000 頁 (若使用免費層訂閱,則只會處理前兩頁)。

  • 用於分析文件的檔案大小是付費 (S0) 層的 500 MB,免費 #F0 層為 4 MB。

  • 影像維度必須介於 50 x 50 像素和 10,000 x 10,000 像素之間。

  • 如果您的 PDF 有密碼鎖定,則必須先移除鎖定才能提交。

  • 針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。 此尺寸在 150 點/英吋 (DPI) 時大約相當於 8 點文字。

  • 針對自訂模型定型,自訂範本模型的定型資料頁數上限為 500,而自訂神經網路模型的上限則為 50,000。

    • 針對自訂擷取模型定型,範本模型的定型資料大小總計為 50 MB,而神經模型的大小總計則為 1G-MB。

    • 針對自訂分類模型定型,定型資料的大小總計為 1GB (上限為 10,000 頁)。

定型資料秘訣

請遵循下列秘訣進一步最佳化資料集,以便進行定型:

  • 可能的話,使用以文字為基礎的 PDF 文件,而非以影像為基礎的文件。 掃描的 PDF 將視為影像處理。

  • 如果您的表單影像品質較低,請使用較大的資料集 (例如 10-15 影像)。

上傳定型資料集

將一組表單或文件組合在一起以進行訓練之後,您必須將其上傳至 Azure Blob 記憶體容器。 如果您不知道如何使用容器建立 Azure 儲存體帳戶,請遵循適用於 Azure 入口網站的 Azure 儲存體快速入門。 您可以使用免費定價層 (F0) 來試用服務,之後可升級至付費層以用於生產環境。 如果您的資料集組織為資料夾,請保留該結構,因為 Studio 可以使用標籤的資料夾名稱來簡化標記流程。

在 Document Intelligence Studio 中建立分類專案

Document Intelligence Studio 提供並協調完成資料集和訓練模型所需的所有 API 呼叫。

  1. 首先,瀏覽至 Document Intelligence Studio。 首次使用工作室時,您必須初始化訂閱、資源群組和資源。 然後,遵循 自定義專案 的必要條件來設定 Studio 來存取您的定型數據集。

  2. 在 Studio 中選取 [自訂分類模型] 圖格,然後在頁面上的自訂模型區段上選取 [建立專案] 按鈕。

    如何在 Document Intelligence Studio 中建立分類器專案的螢幕擷取畫面。

    1. 在建立專案對話方塊中,提供專案名稱、選擇性地提供描述,然後選取 [繼續]。

    2. 接下來,選擇或建立 Document Intelligence 來源,然後選取 [繼續]。

    顯示專案設定對話視窗的螢幕擷取畫面。

  3. 接下來,選取您用來上傳自定義模型定型數據集的記憶體帳戶。 如果您的定型文件在容器的根目錄中,則資料夾路徑應該是空的。 如果文件位於子資料夾中,請在 [資料夾路徑] 欄位中輸入容器根目錄的相對路徑。 設定儲存體帳戶後,請選取 [繼續]。

    重要

    您可按資料夾來整理訓練資料集,其中資料夾名稱是文件的標籤或分類,或建立可在 Studio 中為其指派標籤的文件一般清單。

    顯示如何選取 Document Intelligence 來源的螢幕擷取畫面。

  4. 訓練自訂分類器需要資料集內每個文件的配置模型輸出。 在模型訓練流程之前,對所有文件執行配置。

  5. 最後,檢閱您的專案設定,然後選取 [建立專案] 以建立新的專案。 您現在應該位於標記視窗中,並看見您資料集中的檔案列出。

標記您的資料

在您的專案中,您只需要使用適當的類別標籤來標記每個文件。

顯示選取 Document Intelligence 來源的螢幕擷取畫面。

檔案清單會顯示已上傳至儲存體的文件,準備好進行標記。 您有幾個選項可以標記資料集。

  1. 如果文件組織在資料夾中,Studio 會提示您使用資料夾名稱做為標籤。 此步驟可將標記簡化為單一選取。

  2. 若要將標籤指派給文件,請選取新增標籤選取標記以指派標籤。

  3. 控制選取多重選取文件以指派標籤

您現在應已標示資料集中的所有文件。 如果查看儲存體帳戶,您會發現對應至訓練資料集中每個文件的 .ocr.json 檔案,以及每個已標記類別的新 class-name.jsonl 檔案。 系統會提交此訓練資料集來訓練模型。

定型您的模型

標記資料集後,您現在已準備好定型模型。 選取右上方的 [定型] 按鈕。

  1. 在訓練模型對話方塊中,提供唯一的分類器識別碼,並可選擇是否提供描述。 分類器識別碼接受字串資料類型。

  2. 選取 [定型] 以起始定型流程。

  3. 分類器模型會在幾分鐘內訓練。

  4. 瀏覽至 [模型] 功能表,以檢視定型作業的狀態。

測試模型

模型定型完成後,您可以在模型清單頁面上選取模型以測試模型。

  1. 選取模型,然後選取 [測試] 按鈕。

  2. 瀏覽檔案或將檔案卸載至文件選取器,以新增檔案。

  3. 選取檔案後,選擇 [分析] 按鈕以測試模型。

  4. 模型結果會顯示為已識別的文件清單、所識別每個文件的信賴分數,以及所識別每個文件的頁面範圍。

  5. 藉由評估每個已識別的文件的結果,驗證您的模型。

使用 SDK 或 API 定型自訂分類器

Studio 會協調 API 呼叫,讓您定型自定義分類器。 分類器定型數據集需要配置 API 的輸出,以符合定型模型的 API 版本。 使用舊版 API 的版面配置結果可能會導致模型精確度較低。

如果數據集不包含版面配置結果,Studio 會產生定型數據集的配置結果。 使用 API 或 SDK 定型分類器時,您必須將版面配置結果新增至包含個別文件的資料夾。 直接呼叫版面配置時,配置結果的格式應為 API 回應的格式。 SDK 物件模型不同,請確定 layout results 是 API 結果,而不是 SDK response

疑難排解

分類模型需要每個訓練文件的配置模型結果。 如果您沒有提供版面配置結果,Studio 會先嘗試執行每個檔的版面配置模型,再定型分類器。 此流程會受到節流處理,而且可能會導致 429 回應。

在 Studio 中,使用分類模型定型之前,請在每份文件上執行配置模型,並將其上傳至與原始文件相同的位置。 新增配置結果之後,即可使用文件來訓練分類器模型。

下一步