文件智慧自訂範本模型
重要
- Document Intelligence 公開預覽版本提供早期存取作用中開發的功能。
- 根據使用者意見反應,功能、方法和流程在正式發行 (GA) 前可能有所變更。
- Document Intelligence 用戶端連結庫的公開預覽版本預設為 REST API 版本 2024-02-29-preview。
- 公開預覽版本 2024-02-29-preview 目前僅適用於下列 Azure 區域:
- 美國東部
- 美國西部 2
- 西歐
此內容適用於:v4.0 (預覽) | 舊版:v3.1 (GA)v3.0 (GA)v2.1 (GA)
此內容適用於:v2.1 | 最新版本:v4.0(預覽)
自定義範本(先前稱為自定義表單)是一種易於訓練的檔模型,可準確地從檔擷取標示的索引鍵/值組、選取標記、數據表、區域和簽章。 範本模型會使用版面配置提示從檔擷取值,並適合從具有已定義可視化範本的高度結構化檔擷取欄位。
自定義範本模型與自定義類神經網路模型共用相同的標籤格式和策略,並支援更多欄位類型和語言。
模型功能
自定義範本模型支援機碼/值組、選取標記、數據表、簽章欄位和選取的區域。
表單欄位 | 選取標記 | 表格式欄位(表格) | 簽章 | 選取的區域 |
---|---|---|---|---|
支援 | 支援 | 支援 | 支援 | 支援 |
表格式欄位
隨著 API 版本 2022-06-30-preview 和更新版本,自定義範本模型將會新增跨 頁面 表格式欄位的支援(數據表):
- 若要為跨越多個頁面的數據表加上標籤,請在單一數據表中跨不同頁面標記數據表的每個數據列。
- 最佳做法是,請確定您的數據集包含一些預期的變化範例。 例如,如果您預期在檔中看到這些變化,請包含整個數據表在單一頁面上的範例,以及數據表跨越兩個以上的頁面。
在無法辨識為數據表的檔內擷取重複資訊時,表格式欄位也很有用。 例如,履歷中的重複工作經歷區段可以標示並擷取為表格式欄位。
處理變化
範本模型依賴定義的視覺範本,對範本進行變更會導致正確性降低。 在這些實例中,分割您的定型數據集,以包含每個範本的至少五個範例,並針對每個變化定型模型。 然後 ,您可以將模型撰寫 成單一端點。 對於細微的變化,例如數位 PDF 檔和影像,最好在相同的定型數據集中包含至少五個類型範例。
輸入需求
若要得到最佳結果,請為每個文件提供一張清晰的照片或高畫質的掃描檔案。
支援的檔案格式:
模型 PDF 圖片:
JPEG/JPG、PNG、BMP、TIFF、HEIFMicrosoft Office:
Word(DOCX)、Excel(XLSX)、PowerPoint(PPTX)和 HTML參閱 ✔ ✔ ✔ 版面配置 ✔ ✔ ✔ (2024-02-29-preview, 2023-10-31-preview 或更新版本) 一般文件 ✔ ✔ 預建 ✔ ✔ 自訂 ✔ ✔ ✱ Microsoft Office 檔案目前不支援其他模型或版本。
若使用 PDF 和 TIFF,最多可處理 2000 頁 (若使用免費層訂閱,則只會處理前兩頁)。
用於分析文件的檔案大小是付費 (S0) 層的 500 MB,免費 #F0 層為 4 MB。
影像維度必須介於 50 x 50 像素和 10,000 x 10,000 像素之間。
如果您的 PDF 有密碼鎖定,則必須先移除鎖定才能提交。
針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。 此尺寸在 150 點/英吋 (DPI) 時大約相當於
8
點文字。針對自訂模型定型,自訂範本模型的定型資料頁數上限為 500,而自訂神經網路模型的上限則為 50,000。
針對自訂擷取模型定型,範本模型的定型資料大小總計為 50 MB,而神經模型的大小總計則為 1G-MB。
針對自訂分類模型定型,定型資料的大小總計為
1GB
(上限為 10,000 頁)。
定型模型
自定義範本模型已正式推出 v4.0 API。 如果您是以新的專案開始,或具備現有的已標記資料集,請使用 3.1 版或 3.0 版 API 搭配文件智慧,來定型自訂範本模型。
模型 | REST API | SDK | 標籤和測試模型 |
---|---|---|---|
自訂範本 | v3.1 API | 文件智慧 SDK | Document Intelligence Studio |
在 3.0 版或更新版本的 API 上,用於定型模型的組建作業支援新的 buildMode
屬性;若要定型自訂範本模型,請將 buildMode
設定為 template
。
https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-02-29-preview
{
"modelId": "string",
"description": "string",
"buildMode": "template",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
自定義範本模型已透過 v3.1 API 正式推出。 如果您是以新的專案開始,或具備現有的已標記資料集,請使用 3.1 版或 3.0 版 API 搭配文件智慧,來定型自訂範本模型。
模型 | REST API | SDK | 標籤和測試模型 |
---|---|---|---|
自訂範本 | v3.1 API | 文件智慧 SDK | Document Intelligence Studio |
在 3.0 版或更新版本的 API 上,用於定型模型的組建作業支援新的 buildMode
屬性;若要定型自訂範本模型,請將 buildMode
設定為 template
。
https://{endpoint}/formrecognizer/documentModels:build?api-version=2023-07-31
{
"modelId": "string",
"description": "string",
"buildMode": "template",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
支援的語言和地區設定
如需支援語言的完整清單,請參閱 我們的 語言支援 - 自定義模型 頁面。
一般可透過 2.1 版 API 取得自訂 (範本) 模型。
模型 | REST API | SDK | 標籤和測試模型 |
---|---|---|---|
自訂模型 (範本) | 文件智慧 2.1 | 文件智慧 SDK | 文件智慧範例標記工具 |
下一步
瞭解如何建立和撰寫自定義模型: