文件智慧自訂神經模型

重要

  • Document Intelligence 公開預覽版本提供早期存取作用中開發的功能。
  • 根據使用者意見反應,功能、方法和流程在正式發行 (GA) 前可能有所變更。
  • Document Intelligence 用戶端連結庫的公開預覽版本預設為 REST API 版本 2024-02-29-preview
  • 公開預覽版本 2024-02-29-preview 目前僅適用於下列 Azure 區域:
  • 美國東部
  • 美國西部 2
  • 西歐

此內容適用於:複選標記v4.0 (預覽) | 舊版:blue-checkmarkv3.1 (GA)blue-checkmarkv3.0 (GA)

此內容適用於:複選標記v3.1 (GA) | 最新版本:紫色複選標記v4.0 (預覽) | 舊版:blue-checkmarkv3.0

此內容適用於:複選標記v3.0 (GA) | 最新版本:紫色複選標記v4.0 (預覽)紫色複選標記v3.1

自定義類神經檔模型或類神經模型是一種深入學習的模型類型,結合了版面配置和語言功能,以準確地從檔擷取已標記的欄位。 基底自定義神經模型是以各種文件類型定型,使其適合用來從結構化、半結構化和非結構化檔擷取字段。 自訂類神經網路模型可在 v3.0 和更新版本中取得。下表列出每個類別的常見文件類型:

文件​​ 範例
結構化 問卷、問卷
半結構化 發票、採購單
非結構化 合約、信件

自定義類神經網路模型與自定義範本模型共用相同的標籤格式和策略。 目前自定義類神經模型只支援自定義範本模型所支援的欄位類型子集。

模型功能

重要

從 API 版本 2024-02-29-preview 自定義類神經模型開始,新增對重疊字段和數據表數據格信賴的支援。

自訂神經模型目前僅支援機碼值組、選取標記和結構欄位 (資料表),未來版本會支援簽章。

表單欄位 選取標記 表格式欄位 簽章 區域 重疊欄位
支援 支援 支援 不支援 支援 1 支援 2

1 自訂神經模型中的區域標籤會針對指定的區域使用版面配置 API 的結果。 這項功能與範本模型不同,如果沒有任何值存在,則會在訓練時產生文字。 2 從 REST API 版本 2024-02-29-preview開始,支援重疊欄位。 重疊欄位有一些限制。 如需詳細資訊, 請參閱重疊欄位

建置模式

建置自定義模型作業支援 範本類神經 自定義模型。 舊版的 REST API 和用戶端連結庫僅支援目前稱為 範本 模式的單一建置模式。

類神經模型支援具有相同資訊但不同頁面結構的檔。 這些檔的範例包括 美國 W2 窗體,這些窗體會共用相同的資訊,但可能會因公司外觀而異。 如需詳細資訊,請參閱自訂模型組建模式

支援的語言和地區設定

如需支援語言的完整清單,請參閱 我們的 語言支援 - 自定義模型 頁面。

重疊欄位

使用 API 版本 2024-02-29-preview 和更新版本,自定義類神經模型將支援重迭字段:

若要使用重疊欄位,您的數據集必須包含至少一個具有預期重疊的範例。 若要標記重疊,請使用 區域標籤 來指定每個欄位的內容範圍(與重疊)。 卷標與欄位選取範圍重疊(反白顯示值)將會在 Studio 中失敗,因為區域標籤是唯一支援用來指出欄位重疊的標籤工具。 重疊支援包括:

  • 完成重疊。 同一組標記會針對兩個不同的欄位加上標籤。
  • 部分重疊。 有些令牌屬於這兩個字段,但只有一個字段或另一個字段的一部分的標記。

重疊欄位有一些限制:

  • 任何標記或單字只能標示為兩個字段。
  • 數據表中的重迭欄位無法跨越數據表數據列。
  • 只有在數據集中至少有一個範例包含這些欄位的重疊卷標時,才能辨識重疊欄位。

若要使用重疊欄位,請使用重迭標記數據集,並使用 API 版本或更新版本 2024-02-29-preview 定型模型。

表格式欄位新增資料表、數據列和儲存格信賴度

隨著 API 版本 2022-06-30-preview 和更新版本發行,自定義神經模型將支援表格式字段(數據表):

  • 使用 API 版本 2022-08-31 定型的模型將會接受表格式欄位標籤。
  • 使用 API 版本 2022-06-30-preview 或更新版本,使用自定義類神經網路模型分析的檔會產生跨數據表匯總的表格式欄位。
  • 結果可以在物件documents陣列中找到analyzeResult,該陣列是在分析作業之後傳回的。

表格式欄位預設支援 跨頁表

  • 若要為跨越多個頁面的數據表加上標籤,請在單一數據表中跨不同頁面標記數據表的每個數據列。
  • 最佳做法是,請確定您的數據集包含一些預期的變化範例。 例如,包含的樣本,其整個資料表都在單一頁面,以及其資料表跨兩個或更多頁面。

在無法辨識為數據表的檔內擷取重複資訊時,表格式欄位也很有用。 例如,履歷中的重複工作經歷區段可以標示並擷取為表格式欄位。

表格式欄位提供從 API 開始的2024-02-29-preview資料表、資料列和儲存格信賴度:

  • 已修正或動態資料表為下列元素新增信賴支援:

    • 數據表信賴度,測量如何正確辨識整個數據表。
    • 數據列信賴度,這是個別數據列的辨識量值。
    • 單元格信賴度,這是個別單元格的辨識量值。
  • 建議的方法是先檢閱從數據表開始,接著是數據列,然後檢閱單元格的精確度。

若要深入了解數據表、數據列和儲存格信賴度,請參閱 信賴度和精確度分數

支援的區域

自 2022 年 10 月 18 日起,只有下列 Azure 區域支援文件智慧自訂神經模型訓練 (除非進一步通知):

  • 澳大利亞東部
  • 巴西南部
  • 加拿大中部
  • 印度中部
  • 美國中部
  • 東亞
  • 美國東部
  • 美國東部 2
  • 法國中部
  • 日本東部
  • 美國中南部
  • 東南亞
  • 英國南部
  • 西歐
  • 美國西部 2
  • US Gov 亞利桑那州
  • US Gov 維吉尼亞州

提示

對於在其中特定一個區域中訓練的模型,您可以複製模型任何其他區域來使用。

使用 REST API文件智慧工作室,將模型複製到另一個區域。

提示

對於在其中特定一個區域中訓練的模型,您可以複製模型任何其他區域來使用。

使用 REST API文件智慧工作室,將模型複製到另一個區域。

提示

對於在其中特定一個區域中訓練的模型,您可以複製模型任何其他區域來使用。

使用 REST API文件智慧工作室,將模型複製到另一個區域。

輸入需求

  • 若要得到最佳結果,請為每個文件提供一張清晰的照片或高畫質的掃描檔案。

  • 支援的檔案格式:

    模型 PDF 圖片:
    jpeg/jpg、png、bmp、tiff、heif
    Microsoft Office:
    Word(docx)、Excel(xlsx)、PowerPoint(pptx)和 HTML
    參閱
    版面配置 ✔ (2024-02-29-preview、2023-10-31-preview 或更新版本)
    一般文件
    預建
    自訂神經

    ✱ Microsoft Office 檔案目前不支援其他模型或版本。

  • 針對 PDF 和 TIFF,最多可以處理 2,000 個頁面(使用免費層訂用帳戶,只會處理前兩個頁面)。

  • 用於分析文件的檔案大小是付費 (S0) 層的 500 MB,免費 #F0 層為 4 MB。

  • 影像維度必須介於 50 x 50 像素和 10,000 x 10,000 像素之間。

  • 如果您的 PDF 有密碼鎖定,則必須先移除鎖定才能提交。

  • 針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。 此維度對應至每英吋 150 個點的大約 8點文字。

  • 針對自訂模型定型,自訂範本模型的定型資料頁數上限為 500,而自訂神經網路模型的上限則為 50,000。

  • 針對自訂擷取模型定型,範本模型的定型資料大小總計為 50 MB,而神經模型的大小總計則為 1G-MB。

  • 針對自訂分類模型定型,定型資料的大小總計為 1GB (上限為 10,000 頁)。

最佳作法

自定義神經模型與自定義範本模型不同,有幾種不同的方式。 自定義範本或模型依賴一致的視覺範本來擷取已標記的數據。 自定義神經模型支持結構化、半結構化和非結構化檔,以擷取字段。 當您在兩個模型類型之間選擇時,請從類神經模型開始,然後測試以判斷它是否支援您的功能需求。

處理變化

自定義類神經模型可以跨單一檔類型的不同格式一般化。 最佳做法是針對文件類型的所有變化建立單一模型。 將每個不同變化的至少五個標籤樣本新增至定型數據集。

欄位命名

標記資料時,選擇與值相關的欄位來標記,可改善所擷取機碼值組的正確性。 例如,假設欄位值包含供應商識別碼,請考慮將欄位命名為 supplier_id。 功能變數名稱應該以文件的語言顯示。

標記連續值

一個字位的值標記/單字必須是:

  • 以自然閱讀順序連續順序排列,而不會與其他欄位交錯
  • 在未涵蓋任何其他欄位的區域

代表性數據

定型案例中的值應該多樣化且具有代表性。 例如,如果欄位名為 date,則此欄位的值應該是日期。 像隨機字串這樣的綜合值可能會影響模型效能。

目前的限制

  • 自定義神經模型無法辨識跨頁面界限分割的值。
  • 如果為自定義範本模型加上標籤的數據集用來定型自定義神經模型,則會忽略自定義神經不支援的欄位類型。
  • 自訂神經模型以每月 20 個組建作業為限。 如果您需要增加限制,請開啟支援要求。 如需詳細資訊,請參閱 Document Intelligence 服務配額和限制

定型模型

自定義神經模型可在 v3.0 和更新版本中取得

檔案類型 REST API SDK 標籤和測試模型
自訂檔 文件智慧 3.1 文件智慧 SDK Document Intelligence Studio

將模型定型的建置作業支援新的 buildMode 屬性、將自訂類神經模型 buildMode 定型為 neural

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-02-29-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}
https://{endpoint}/formrecognizer/documentModels:build?api-version=v3.1:2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}
https://{endpoint}/formrecognizer/documentModels/{modelId}:copyTo?api-version=2022-08-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

下一步

瞭解如何建立和撰寫自定義模型: