共用方式為


文件智慧自訂神經模型

重要

  • Document Intelligence 公開預覽版本提供早期存取作用中開發的功能。
  • 根據使用者意見反應,功能、方法和流程在正式發行 (GA) 前可能有所變更。
  • Document Intelligence 用戶端連結庫的公開預覽版本預設為 REST API 版本 2024-02-29-preview
  • 公開預覽版本 2024-02-29-preview 目前僅適用於下列 Azure 區域:
  • 美國東部
  • 美國西部 2
  • 西歐

此內容適用於:複選標記v4.0 (預覽) | 舊版:blue-checkmarkv3.1 (GA)blue-checkmarkv3.0 (GA)

此內容適用於:複選標記v3.1 (GA) | 最新版本:紫色複選標記v4.0 (預覽) | 舊版:blue-checkmarkv3.0

此內容適用於:複選標記v3.0 (GA) | 最新版本:紫色複選標記v4.0 (預覽)紫色複選標記v3.1

自訂神經文件模型或神經模型是一種深度學習模型類型,可結合配置和語言特徵,以準確地從文件中擷取標記欄位。 基底自定義神經模型是以各種文件類型定型,使其適合用來從結構化、半結構化和非結構化檔擷取字段。 自訂類神經網路模型可在 v3.0 和更新版本中取得。下表列出每個類別的常見文件類型:

文件​​ 範例
結構化 調查、問卷
半結構化 發票、採購單
非結構化 合約、信件

自訂類神經模型與自訂範本模型共用相同的標籤格式和策略。 目前,自訂類神經模型僅支援自訂範本模型所支援的一部分欄位類型。

模型功能

重要

從 API 版本 2024-02-29-preview 自定義類神經模型開始,新增對重疊字段和數據表數據格信賴的支援。

自訂神經模型目前僅支援機碼值組、選取標記和結構欄位 (資料表),未來版本會支援簽章。

表單欄位 選取標記 表格式欄位 簽章 區域 重疊欄位
支援 支援 支援 不支援 支援 1 支援 2

1 自訂神經模型中的區域標籤會針對指定的區域使用版面配置 API 的結果。 這項功能與範本模型不同,如果沒有任何值存在,則會在訓練時產生文字。 2 從 REST API 版本 2024-02-29-preview開始,支援重疊欄位。 重疊欄位有一些限制。 如需詳細資訊, 請參閱重疊欄位

建置模式

建置自定義模型作業支援 範本類神經 自定義模型。 舊版的 REST API 和用戶端連結庫僅支援目前稱為 範本 模式的單一建置模式。

神經模型支援具有相同資訊但不同頁面結構的文件。 這些檔的範例包括 美國 W2 窗體,這些窗體會共用相同的資訊,但可能會因公司外觀而異。 如需詳細資訊,請參閱自訂模型組建模式

支援的語言和地區設定

如需支援語言的完整清單,請參閱 我們的 語言支援 - 自定義模型 頁面。

重疊欄位

使用 API 版本 2024-02-29-preview 和更新版本,自定義類神經模型將支援重迭字段:

若要使用重疊欄位,您的數據集必須包含至少一個具有預期重疊的範例。 若要標記重疊,請使用 區域標籤 來指定每個欄位的內容範圍(與重疊)。 卷標與欄位選取範圍重疊(反白顯示值)將會在 Studio 中失敗,因為區域標籤是唯一支援用來指出欄位重疊的標籤工具。 重疊支援包括:

  • 完成重疊。 同一組標記會針對兩個不同的欄位加上標籤。
  • 部分重疊。 有些令牌屬於這兩個字段,但只有一個字段或另一個字段的一部分的標記。

重疊欄位有一些限制:

  • 任何標記或單字只能標示為兩個字段。
  • 數據表中的重迭欄位無法跨越數據表數據列。
  • 只有在數據集中至少有一個範例包含這些欄位的重疊卷標時,才能辨識重疊欄位。

若要使用重疊欄位,請使用重迭標記數據集,並使用 API 版本或更新版本 2024-02-29-preview 定型模型。

表格式欄位新增資料表、數據列和儲存格信賴度

隨著 API 版本 2022-06-30-preview 及更新版本發行,自訂類神經模型也支援表格式欄位 (資料表):

  • 使用 API 版本 2022-08-31 或更新版本訓練的模型可接受表格式欄位標籤。
  • 使用 API 版本 2022-06-30-preview 或更新版本以自訂類神經模型來分析的文件,將會產生跨資料表彙總的表格式欄位。
  • 在分析作業之後傳回的 analyzeResult 物件的 documents 陣列中,可以找到結果。

表格式欄位預設支援跨頁資料表

  • 若要將跨越多個頁面的資料表加上標籤,請在單一資料表中跨不同頁面來標記資料表的每個資料列。
  • 最佳做法是確保資料集包含預期變化的幾個樣本。 例如,包含的樣本,其整個資料表都在單一頁面,以及其資料表跨兩個或更多頁面。

在文件內擷取無法辨識為資料表的重複資訊時,表格式欄位也很有用。 例如,在履歷表中,一段重複的工作經驗可以標示並擷取為表格式欄位。

表格式欄位提供從 API 開始的2024-02-29-preview資料表、資料列和儲存格信賴度:

  • 已修正或動態資料表為下列元素新增信賴支援:

    • 數據表信賴度,測量如何正確辨識整個數據表。
    • 數據列信賴度,這是個別數據列的辨識量值。
    • 單元格信賴度,這是個別單元格的辨識量值。
  • 建議的方法是先檢閱從數據表開始,接著是數據列,然後檢閱單元格的精確度。

若要深入了解數據表、數據列和儲存格信賴度,請參閱 信賴度和精確度分數

支援的區域

自 2022 年 10 月 18 日起,只有下列 Azure 區域支援文件智慧自訂神經模型訓練 (除非進一步通知):

  • 澳大利亞東部
  • 巴西南部
  • 加拿大中部
  • 印度中部
  • 美國中部
  • 東亞
  • 美國東部
  • 美國東部 2
  • 法國中部
  • 日本東部
  • 美國中南部
  • 東南亞
  • 英國南部
  • 西歐
  • 美國西部 2
  • US Gov 亞利桑那州
  • US Gov 維吉尼亞州

提示

對於在其中特定一個區域中訓練的模型,您可以複製模型任何其他區域來使用。

使用 REST API文件智慧工作室,將模型複製到另一個區域。

提示

對於在其中特定一個區域中訓練的模型,您可以複製模型任何其他區域來使用。

使用 REST API文件智慧工作室,將模型複製到另一個區域。

提示

對於在其中特定一個區域中訓練的模型,您可以複製模型任何其他區域來使用。

使用 REST API文件智慧工作室,將模型複製到另一個區域。

輸入需求

  • 若要得到最佳結果,請為每個文件提供一張清晰的照片或高畫質的掃描檔案。

  • 支援的檔案格式:

    模型 PDF 圖片:
    jpeg/jpg、png、bmp、tiff、heif
    Microsoft Office:
    Word(docx)、Excel(xlsx)、PowerPoint(pptx)和 HTML
    參閱
    版面配置 ✔ (2024-02-29-preview、2023-10-31-preview 或更新版本)
    一般文件
    預建
    自訂神經

    ✱ Microsoft Office 檔案目前不支援其他模型或版本。

  • 針對 PDF 和 TIFF,最多可以處理 2,000 個頁面(使用免費層訂用帳戶,只會處理前兩個頁面)。

  • 用於分析文件的檔案大小是付費 (S0) 層的 500 MB,免費 #F0 層為 4 MB。

  • 影像維度必須介於 50 x 50 像素和 10,000 x 10,000 像素之間。

  • 如果您的 PDF 有密碼鎖定,則必須先移除鎖定才能提交。

  • 針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。 此維度對應至每英吋 150 個點的大約 8點文字。

  • 針對自訂模型定型,自訂範本模型的定型資料頁數上限為 500,而自訂神經網路模型的上限則為 50,000。

  • 針對自訂擷取模型定型,範本模型的定型資料大小總計為 50 MB,而神經模型的大小總計則為 1G-MB。

  • 針對自訂分類模型定型,定型資料的大小總計為 1GB (上限為 10,000 頁)。

最佳作法

自訂類神經模型有幾方面不同於自訂範本模型。 自訂範本或模型依賴一致的視覺化範本來擷取標記的資料。 自訂神經模型支援從結構化、半結構化和非結構化文件中擷取欄位。 在這兩種模型類型之間做選擇時,請從神經網路開始,經過測試以決定是否支援您的功能需求。

處理變化

自訂類神經模型可以跨單一文件類型的各種不同格式而一般化。 最佳做法是針對文件類型的所有變化建立單一模型。 針對各種不同變化,將至少五個標記樣本新增至定型資料集。

欄位命名

標記資料時,選擇與值相關的欄位來標記,可改善所擷取機碼值組的正確性。 例如,假設欄位值包含供應商識別碼,請考慮將欄位命名為 supplier_id。 欄位名稱應該採用文件的語言。

標記連續值

一個字位的值標記/單字必須是:

  • 以自然閱讀順序連續順序排列,而不會與其他欄位交錯
  • 在未涵蓋任何其他欄位的區域

代表性資料

定型案例中的值應該互異且具代表性。 例如,如果欄位名為 date,則此欄位的值應該是日期。 像隨機字串這樣的綜合值可能會影響模型效能。

目前的限制

  • 自定義神經模型無法辨識跨頁面界限分割的值。
  • 如果為自定義範本模型加上標籤的數據集用來定型自定義神經模型,則會忽略自定義神經不支援的欄位類型。
  • 自訂神經模型以每月 20 個組建作業為限。 如果需要提高限制,請提出支援要求。 如需詳細資訊,請參閱 Document Intelligence 服務配額和限制

Training a model

自定義神經模型可在 v3.0 和更新版本中取得

檔案類型 REST API SDK 標記和測試模型
自訂文件 文件智慧 3.1 文件智慧 SDK Document Intelligence Studio

用於定型模型的組建作業支援新的 buildMode 屬性,若要定型自訂類神經模型,請將 buildMode 設定為 neural

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-02-29-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}
https://{endpoint}/formrecognizer/documentModels:build?api-version=v3.1:2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}
https://{endpoint}/formrecognizer/documentModels/{modelId}:copyTo?api-version=2022-08-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

下一步

了解如何建立和撰寫自訂模型: