文件智慧自訂神經模型
重要
- 文件智慧服務公開預覽版本可供您搶先試用積極開發中的功能。
- 根據使用者意見反應,功能、方法和流程在正式發行 (GA) 前可能有所變更。
- 文件智慧服務用戶端程式庫的公開預覽版本預設為 REST API 版本 2024-02-29-preview。
- 公開預覽版本 2024-02-29-preview 目前僅適用於下列 Azure 區域:
- 美國東部
- 美國西部 2
- 西歐
此內容適用於: v3.1 (GA) | 最新版本:
v4.0 (預覽版) | 較舊版本:
v3.0
此內容適用於: v3.0 (GA) | 最新版本:
v4.0 (預覽版)
v3.1
自訂神經文件模型或神經模型是一種深度學習模型類型,可結合配置和語言特徵,以準確地從文件中擷取標記欄位。 基礎自訂神經模型根據各種檔案類型來定型,經過定型,很適合從結構化、半結構化和非結構化文件中擷取欄位。 v3.0 和更新版本的模型中提供了自訂神經模型。下表列出各種類別常見的文件類型:
文件 | 範例 |
---|---|
結構化 | 調查、問卷 |
半結構化 | 發票、採購單 |
非結構化 | 合約、信件 |
自訂類神經模型與自訂範本模型共用相同的標籤格式和策略。 目前,自訂類神經模型僅支援自訂範本模型所支援的一部分欄位類型。
模型功能
重要
從 API 版本 2024-02-29-preview
開始,自訂神經模型新增了對重疊欄位和資料表儲存格信賴度的支援。
自訂神經模型目前僅支援機碼值組、選取標記和結構欄位 (資料表),未來版本會支援簽章。
表單欄位 | 選取標記 | 表格式欄位 | 簽章 | 區域 | 重疊欄位 |
---|---|---|---|---|---|
支援 | 支援 | 支援 | 不支援 | 支援 1 | 支援 2 |
1 自訂神經模型中的區域標籤會針對指定的區域使用版面配置 API 的結果。 這項功能與範本模型不同,如果沒有任何值存在,則會在訓練時產生文字。
2 從 REST API 版本 2024-02-29-preview
開始支援重疊欄位。 重疊欄位有一些限制。 如需詳細資訊,請參閱重疊欄位。
建置模式
組建自訂模型作業支援範本和神經自訂模型。 舊版 REST API 和用戶端程式庫僅支援單一建置模式 (現在稱為範本模式)。
神經模型支援具有相同資訊但不同頁面結構的文件。 這些文件的範例包括美國 W2 表單,這些表單會共用相同的資訊,但不同的公司在外觀上可能有所不同。 如需詳細資訊,請參閱自訂模型組建模式。
支援的語言和地區設定
如需支援語言的完整清單,請參閱我們的語言支援—自訂模型頁面。
重疊欄位
隨著 API 版本 2024-02-29-preview 及更新版本的發行,自訂神經模型將支援重疊欄位:
若要使用重疊欄位,您的資料集需要至少包含一個具有預期重疊的樣本。 若要標記重疊,請使用區域標記來指定每個欄位的每個內容範圍 (包括重疊部分)。 在工作室中使用欄位選取 (反白顯示值) 來標記重疊將會失敗,因為區域標記是唯一受支援用來指出欄位重疊的標記工具。 重疊支援包括:
- 完成重疊。 同一組標記 (token) 會針對兩個不同的欄位進行標記。
- 部分重疊。 有些標記同時屬於兩個欄位,但有些標記僅屬於一個欄位或另一個欄位的一部分。
重疊欄位有一些限制:
- 任何標記或單字只能標記為兩個欄位。
- 資料表中的重疊欄位不能跨越資料表資料列。
- 只有當資料集中至少有一個樣本包含這些欄位的重疊標籤時,才能辨識重疊欄位。
若要使用重疊欄位,請使用重疊來標記您的資料集並使用 API 版本 2024-02-29-preview
或更新版本來訓練模型。
表格式欄位新增了資料表、資料列和儲存格信賴度
隨著 API 版本 2022-06-30-preview 及更新版本發行,自訂類神經模型也支援表格式欄位 (資料表):
- 使用 API 版本 2022-08-31 或更新版本訓練的模型可接受表格式欄位標籤。
- 使用 API 版本 2022-06-30-preview 或更新版本以自訂類神經模型來分析的文件,將會產生跨資料表彙總的表格式欄位。
- 在分析作業之後傳回的
analyzeResult
物件的documents
陣列中,可以找到結果。
表格式欄位預設支援跨頁資料表:
- 若要將跨越多個頁面的資料表加上標籤,請在單一資料表中跨不同頁面來標記資料表的每個資料列。
- 最佳做法是確保資料集包含預期變化的幾個樣本。 例如,包含的樣本,其整個資料表都在單一頁面,以及其資料表跨兩個或更多頁面。
在文件內擷取無法辨識為資料表的重複資訊時,表格式欄位也很有用。 例如,在履歷表中,一段重複的工作經驗可以標示並擷取為表格式欄位。
表格式欄位從 2024-02-29-preview
API 開始提供資料表、資料列和儲存格信賴度:
固定或動態資料表增加了對以下元素的信賴度支援:
- 資料表信賴度 (衡量整個資料表的辨識準確度的量值)。
- 資料列信賴度 (個別資料列的辨識的量值)。
- 儲存格信賴度 (個別儲存格的辨識的量值)。
建議的方法是以自上而下的方式檢閱準確性,首先從資料表開始,接著是資料列,然後是儲存格。
若要深入了解資料表、資料列和儲存格信賴度,請參閱信賴度和準確性分數。
支援的區域
自 2022 年 10 月 18 日起,只有下列 Azure 區域支援文件智慧自訂神經模型訓練 (除非進一步通知):
- 澳大利亞東部
- 巴西南部
- 加拿大中部
- 印度中部
- 美國中部
- 東亞
- 美國東部
- 美國東部 2
- 法國中部
- 日本東部
- 美國中南部
- 東南亞
- 英國南部
- 西歐
- 美國西部 2
- US Gov 亞利桑那州
- US Gov 維吉尼亞州
輸入需求
若要得到最佳結果,請為每個文件提供一張清晰的照片或高畫質的掃描檔案。
支援的檔案格式:
模型 PDF 影像:
jpeg/jpg、png、bmp、tiff、heifMicrosoft Office:
Word (docx)、Excel (xlsx)、PowerPoint (pptx) 和 HTML參閱 ✔ ✔ ✔ 版面配置 ✔ ✔ ✔ (2024-02-29-preview、2023-10-31-preview 或更新版本) 一般文件 ✔ ✔ 預建 ✔ ✔ 自訂神經 ✔ ✔ ✱ Microsoft Office 檔案目前不支援其他模型或版本。
若使用 PDF 和 TIFF,最多可處理 2,000 頁 (若使用免費層訂閱,則只會處理前兩頁)。
分析文件的檔案大小付費 (S0) 層為 500 MB,而免費 (F0) 層為 4 MB。
影像維度必須介於 50 x 50 像素和 10,000 x 10,000 像素之間。
如果您的 PDF 有密碼鎖定,則必須先移除鎖定才能提交。
針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。 此尺寸在 150 點/英吋時大約相當於
8
點文字。針對自訂模型定型,自訂範本模型的定型資料頁數上限為 500,而自訂神經網路模型的上限則為 50,000。
針對自訂擷取模型定型,範本模型的定型資料大小總計為 50 MB,而神經模型的大小總計則為 1G-MB。
針對自訂分類模型定型,定型資料的大小總計為
1GB
(上限為 10,000 頁)。
最佳作法
自訂類神經模型有幾方面不同於自訂範本模型。 自訂範本或模型依賴一致的視覺化範本來擷取標記的資料。 自訂神經模型支援從結構化、半結構化和非結構化文件中擷取欄位。 在這兩種模型類型之間做選擇時,請從神經網路開始,經過測試以決定是否支援您的功能需求。
處理變化
自訂類神經模型可以跨單一文件類型的各種不同格式而一般化。 最佳做法是針對文件類型的所有變化建立單一模型。 針對各種不同變化,將至少五個標記樣本新增至定型資料集。
欄位命名
標記資料時,選擇與值相關的欄位來標記,可改善所擷取機碼值組的正確性。 例如,假設欄位值包含供應商識別碼,請考慮將欄位命名為 supplier_id。 欄位名稱應該採用文件的語言。
標記連續值
一個欄位的值標記/單字必須是:
- 依自然讀取順序的連續序列,不與其他欄位交錯
- 在未涵蓋任何其他欄位的區域
代表性資料
定型案例中的值應該互異且具代表性。 例如,如果欄位名為 date,則此欄位的值應該是日期。 隨機字串之類的合成值可能影響模型效能。
目前的限制
- 自訂神經模型無法辨識跨頁面邊界分割的值。
- 如果使用了一個針對自訂範本模型所標記的資料集來訓練一個自訂神經模型,則會忽略自訂神經不支援的欄位類型。
- 自訂神經模型以每月 20 個組建作業為限。 如果需要提高限制,請提出支援要求。 如需詳細資訊,請參閱 文件智慧服務配額和限制。
Training a model
v3.0 和更新版本的模型中提供了自訂神經模型。
檔案類型 | REST API | SDK | 標記和測試模型 |
---|---|---|---|
自訂文件 | 文件智慧 3.1 | 文件智慧 SDK | Document Intelligence Studio |
用於定型模型的組建作業支援新的 buildMode
屬性,若要定型自訂類神經模型,請將 buildMode
設定為 neural
。
https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-02-29-preview
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
https://{endpoint}/formrecognizer/documentModels:build?api-version=v3.1:2023-07-31
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
https://{endpoint}/formrecognizer/documentModels/{modelId}:copyTo?api-version=2022-08-31
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
下一步
了解如何建立和撰寫自訂模型:
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應