共用方式為


文件智慧自訂範本模型

重要

  • 文件智慧服務公開預覽版本可讓您搶先存取正在積極開發的功能。 根據使用者意見反應,功能、方法和流程在正式發行 (GA) 前可能有所變更。
  • 文件智慧服務用戶端程式庫的公開預覽版預設為 REST API 版本 2024-07-31-preview
  • 公開預覽版 2024-07-31-preview 目前僅適用於下列 Azure 地區。 請注意,AI Studio 中的自訂生成 (文件欄位擷取) 模型僅適用美國中北部地區:
    • 美國東部
    • 美國西部 2
    • 西歐
    • 美國中北部

此內容適用於:勾選記號 v4.0 (預覽版) | 舊版:blue-checkmark v3.1 (GA) blue-checkmark v3.0 (GA) blue-checkmark v2.1 (GA)

此內容適用於:勾選記號 v3.1 (GA) | 最新版本:purple-checkmark v4.0 (預覽版) | 舊版:blue-checkmark v3.0 blue-checkmark v2.1

此內容適用於:勾選記號 v3.0 (GA) | 最新版本:purple-checkmark v4.0 (預覽版) purple-checkmark v3.1 | 舊版:blue-checkmark v2.1

此內容適用於:勾選記號 v2.1 | 最新版本:blue-checkmark v4.0 (預覽版)

自訂範本 (先前的自訂表單) 是易於定型的文件模型,可正確地從文件中擷取有標籤的索引鍵/值組、選取記號、表格、區域和簽章。 範本模型會使用版面配置提示從文件中擷取值,並適合從具有已定義視覺化範本的高度結構化文件中擷取欄位。

自訂範本模型與自訂神經網路共用相同的標籤格式和策略,並支援更多欄位類型和語言。

模型功能

自訂範本模型支援索引鍵/值組、選取標記、資料表、簽章欄位和選取的區域。

表單欄位 選取標記 表格式欄位 (資料表) 簽章 選取的區域 重疊欄位
支援 支援 支援 支援 已支援 不支援

表格式欄位

隨著 API 版本 v3.0 和更新版本的發行,自訂範本模型新增了對跨頁表格式欄位 (資料表) 的支援:

  • 若要將跨越多個頁面的資料表加上標籤,請在單一資料表中跨不同頁面來標記資料表的每個資料列。
  • 最佳做法是確保資料集包含預期變化的幾個樣本。 例如,如果您預期在文件中看到這些變化,請包含整個資料表在單一頁面上的範例,以及資料表橫跨越兩個以上頁面的範例。

在文件內擷取無法辨識為資料表的重複資訊時,表格式欄位也很有用。 例如,在履歷表中,一段重複的工作經驗可以標示並擷取為表格式欄位。

處理變化

範本模型依賴定義的視覺範本,對範本進行變更會導致正確性降低。 在這些實例中,請分割您的訓練資料集,每個範本包含至少五個樣本,並針對每個變化訓練模型。 然後,您可以將模型結合到單一端點。 對於處理數位 PDF 文件和影像等等的細微變化,在相同訓練資料集中,每個類型最好包含至少五個範例。

輸入需求

  • 若要得到最佳結果,請為每個文件提供一張清晰的照片或高畫質的掃描檔案。

  • 支援的檔案格式:

    模型 PDF 影像:
    JPEG/JPGPNGBMPTIFFHEIF
    Microsoft Office:
    Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX)、HTML
    參閱
    版面配置 ✔ (2024-02-29-preview、2023-10-31-preview 或更新版本)
    一般文件
    預建
    自訂

    ✱ Microsoft Office 檔案目前不支援其他模型或版本。

  • 若使用 PDF 和 TIFF,最多可處理 2,000 頁 (若使用免費層訂閱,則只會處理前兩頁)。

  • 分析文件的檔案大小付費 (S0) 層為 500 MB,而免費 (F0) 層為 4 MB。

  • 影像維度必須介於 50 x 50 像素和 10,000 x 10,000 像素之間。

  • 如果您的 PDF 有密碼鎖定,則必須先移除鎖定才能提交。

  • 針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。 此尺寸在 150 點/英吋時大約相當於 8 點文字 (DPI)。

  • 針對自訂模型定型,自訂範本模型的定型資料頁數上限為 500,而自訂神經網路模型的上限則為 50,000。

  • 針對自訂擷取模型定型,範本模型的定型資料大小總計為 50 MB,而神經模型的大小總計則為 1G-MB。

  • 針對自訂分類模型定型,定型資料的大小總計為 1GB (上限為 10,000 頁)。

Training a model

自訂範本模型從 v2.0 API 和更新版本開始正式推出。 如果您是以新的專案開始,或具備現有的已標記資料集,請使用 3.1 版或 3.0 版 API 搭配文件智慧,來定型自訂範本模型。

模型 REST API SDK 標記和測試模型
自訂範本 v3.1 API 文件智慧 SDK Document Intelligence Studio

在 3.0 版或更新版本的 API 上,用於定型模型的組建作業支援新的 buildMode 屬性;若要定型自訂範本模型,請將 buildMode 設定為 template

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview


{
  "modelId": "string",
  "description": "string",
  "buildMode": "template",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

自訂範本模型已透過 v3.1 API 正式推出。 如果您是以新的專案開始,或具備現有的已標記資料集,請使用 3.1 版或 3.0 版 API 搭配文件智慧,來定型自訂範本模型。

模型 REST API SDK 標記和測試模型
自訂範本 v3.1 API 文件智慧 SDK Document Intelligence Studio

在 3.0 版或更新版本的 API 上,用於定型模型的組建作業支援新的 buildMode 屬性;若要定型自訂範本模型,請將 buildMode 設定為 template

https://{endpoint}/formrecognizer/documentModels:build?api-version=2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "template",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

支援的語言和地區設定

如需支援語言的完整清單,請參閱我們的語言支援—自訂模型頁面。

一般可透過 2.1 版 API 取得自訂 (範本) 模型。

模型 REST API SDK 標記和測試模型
自訂模型 (範本) 文件智慧 2.1 文件智慧 SDK 文件智慧範例標記工具

下一步

了解如何建立和撰寫自訂模型: