文件智慧自訂神經模型
重要
- 文件智慧服務公開預覽版本可讓您搶先存取正在積極開發的功能。 根據使用者意見反應,功能、方法和流程在正式發行 (GA) 前可能有所變更。
- 文件智慧服務用戶端程式庫的公開預覽版預設為 REST API 版本 2024-07-31-preview。
- 公開預覽版 2024-07-31-preview 目前僅適用於下列 Azure 地區。 請注意,AI Studio 中的自訂生成 (文件欄位擷取) 模型僅適用美國中北部地區:
- 美國東部
- 美國西部 2
- 西歐
- 美國中北部
此內容適用於: v3.1 (GA) | 最新版本: v4.0 (預覽版) | 舊版: v3.0
此內容適用於: v3.0 (GA) | 最新版本: v4.0 (預覽版) v3.1
自訂神經文件模型或神經模型是一種深度學習模型類型,可結合配置和語言特徵,以準確地從文件中擷取標記欄位。 基礎自訂類神經模型根據各種檔案類型來定型,經過定型可適合從結構化和半結構化文件中擷取欄位。 v3.0 和更新版本的模型中提供了自訂神經模型。下表列出各種類別常見的文件類型:
文件 | 範例 |
---|---|
結構化 | 調查、問卷 |
半結構化 | 發票、採購單 |
自訂類神經模型與自訂範本模型共用相同的標籤格式和策略。 目前,自訂類神經模型僅支援自訂範本模型所支援的一部分欄位類型。
模型功能
重要
從 API 版本 2024-02-29-preview
開始,自訂神經模型新增了對重疊欄位和資料表儲存格信賴度的支援。
自訂神經模型目前僅支援索引鍵-值組,以及選取標記和結構化欄位 (資料表)。
表單欄位 | 選取標記 | 表格式欄位 | 簽章 | 區域標籤 | 重疊欄位 |
---|---|---|---|---|---|
支援 | 支援 | 支援 | 不支援 | 支援 1 | 支援 2 |
1 自訂神經模型中的區域標籤會針對指定的區域使用版面配置 API 的結果。 這項功能與範本模型不同,如果沒有任何值存在,則會在訓練時間產生文字。
2 從 REST API 版本 2024-02-29-preview
開始支援重疊欄位。 重疊欄位有一些限制。 如需詳細資訊,請參閱重疊欄位。
建置模式
Build
作業支援範本和神經自訂模型。 舊版 REST API 和用戶端程式庫僅支援單一建置模式 (現在稱為範本模式)。
神經模型支援具有相同資訊但不同頁面結構的文件。 這些文件的範例包括美國 W2 表單,這些表單會共用相同的資訊,但不同的公司在外觀上可能有所不同。 如需詳細資訊,請參閱自訂模型組建模式。
重疊欄位
隨著 API 版本 2024-02-29-preview
及更新版本的發行,自訂神經模型支援重疊欄位:
重疊欄位
隨著 API 版本 2024-07-31-preview 及更新版本的發行,自訂神經模型將支援重疊欄位:
若要使用重疊欄位,您的資料集需要至少包含一個具有預期重疊的樣本。 若要標記重疊,請使用區域標記來指定每個欄位的每個內容範圍 (包括重疊部分)。 在工作室中使用欄位選取 (反白顯示值) 來標記重疊會失敗,因為區域標記是唯一受支援用來指出欄位重疊的標記工具。 重疊支援包括:
- 完成重疊。 同一組標記 (token) 會針對兩個不同的欄位進行標記。
- 部分重疊。 有些標記同時屬於兩個欄位,但有些標記僅屬於一個欄位或另一個欄位的一部分。
重疊欄位有一些限制:
- 任何標記或單字只能標記為兩個欄位。
- 資料表中的重疊欄位不能跨越資料表資料列。
- 只有當資料集中至少有一個樣本包含這些欄位的重疊標籤時,才能辨識重疊欄位。
若要使用重疊欄位,請使用重疊來標記您的資料集並使用 API 版本 2024-02-29-preview
或更新版本來訓練模型。
表格式欄位
隨著 API 版本 2022-06-30-preview 及更新版本發行,自訂神經模型支援表格式欄位 (資料表) 以更高信賴度分析資料表、資料列和儲存格資料:
- 使用 API 版本 2022-06-30-preview 或更新版本定型的模型可接受表格式欄位標籤。
- 使用 API 版本 2022-06-30-preview 或更新版本以自訂類神經模型來分析的文件,將會產生跨資料表彙總的表格式欄位。
- 在分析作業之後傳回的
analyzeResult
物件的documents
陣列中,可以找到結果。
表格式欄位預設支援跨頁資料表:
- 若要將跨越多個頁面的資料表加上標籤,請在單一資料表中跨不同頁面來標記資料表的每個資料列。
- 最佳做法是確保資料集包含預期變化的幾個樣本。 例如,包含的樣本,其整個資料表都在單一頁面,以及其資料表跨兩個或更多頁面。
在文件內擷取無法辨識為資料表的重複資訊時,表格式欄位也很有用。 例如,在履歷表中,一段重複的工作經驗可以標示並擷取為表格式欄位。
表格式欄位從 2024-02-29-preview
API 開始提供資料表、資料列和儲存格信賴度:
固定或動態資料表增加了對以下元素的信賴度支援:
- 資料表信賴度 (衡量整個資料表的辨識準確度的量值)。
- 資料列信賴度 (個別資料列的辨識的量值)。
- 儲存格信賴度 (個別儲存格的辨識的量值)。
建議的方法是以自上而下的方式檢閱準確性,首先從資料表開始,接著是資料列,然後是儲存格。 若要深入了解資料表、資料列和儲存格信賴度,請參閱信賴度和準確性分數。
支援的語言和地區設定
如需支援語言的完整清單,請參閱我們的語言支援—自訂模型。
支援的區域
自 2022 年 10 月 18 日起,只有下列 Azure 區域支援文件智慧自訂神經模型訓練 (除非進一步通知):
- 澳大利亞東部
- 巴西南部
- 加拿大中部
- 印度中部
- 美國中部
- 東亞
- 美國東部
- 美國東部 2
- 法國中部
- 日本東部
- 美國中南部
- 東南亞
- 英國南部
- 西歐
- 美國西部 2
- US Gov 亞利桑那州
- US Gov 維吉尼亞州
輸入需求
若要得到最佳結果,請為每個文件提供一張清晰的照片或高畫質的掃描檔案。
支援的檔案格式:
模型 PDF 影像:
jpeg/jpg
、png
、bmp
、tiff
、heif
Microsoft Office:
Word (docx)、Excel (xlsx)、PowerPoint (pptx) 和 HTML參閱 ✔ ✔ ✔ 版面配置 ✔ ✔ ✔ (2024-02-29-preview、2023-10-31-preview 或更新版本) 一般文件 ✔ ✔ 預建 ✔ ✔ 自訂神經 ✔ ✔ ✱ Microsoft Office 檔案目前不支援其他模型或版本。
若使用 PDF 和 TIFF,最多可處理 2,000 頁 (若使用免費層訂閱,則只會處理前兩頁)。
分析文件的檔案大小付費 (S0) 層為 500 MB,而免費 (F0) 層為 4 MB。
影像維度必須介於 50 x 50 像素和 10,000 x 10,000 像素之間。
如果您的 PDF 有密碼鎖定,則必須先移除鎖定才能提交。
針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。 此尺寸在 150 點/英吋時大約相當於
8
點文字。針對自訂模型定型,自訂範本模型的定型資料頁數上限為 500,而自訂神經網路模型的上限則為 50,000。
針對自訂擷取模型定型,範本模型的定型資料大小總計為 50 MB,而神經模型的大小總計則為 1G-MB。
針對自訂分類模型定型,定型資料的大小總計為
1GB
(上限為 10,000 頁)。
最佳作法
自訂類神經模型有幾方面不同於自訂範本模型。 自訂範本或模型依賴一致的視覺化範本來擷取標記的資料。 自訂神經模型支援結構化和半結構化擷取欄位。 在模型類型之間做選擇時,請從神經模型開始,進行測試以決定其是否支援您的功能需求。
- 處理變化:自訂神經模型可以跨單一文件類型的各種不同格式一般化。 最佳做法是針對文件類型的所有變化建立單一模型。 針對各種不同變化,將至少五個標記樣本新增至定型資料集。
- 欄位命名:標記資料時,標記與值相關的欄位,可改善所擷取索引鍵-值組的正確性。 例如,假設欄位值包含供應商識別碼,請考慮將欄位命名為 supplier_id。 欄位名稱應該採用文件的語言。
- 標記連續值:一個欄位的值標記/字組必須是下列其中一個:
- 依自然讀取順序的連續序列,不與其他欄位交錯
- 在未涵蓋任何其他欄位的區域
- 代表性資料:定型案例中的值應該互異且具代表性。 例如,如果欄位名為 date,則此欄位的值應該是日期。 隨機字串之類的合成值可能影響模型效能。
目前的限制
- 自訂神經模型無法辨識跨頁面邊界分割的值。
- 如果使用了一個針對自訂範本模型所標記的資料集來訓練一個自訂神經模型,則會忽略自訂神經不支援的欄位類型。
- 自訂神經模型以每月 20 個組建作業為限。 如果需要提高限制,請提出支援要求。 如需詳細資訊,請參閱 文件智慧服務配額和限制。
Training a model
v3.0 和更新版本的模型中提供了自訂神經模型。
檔案類型 | REST API | SDK | 標記和測試模型 |
---|---|---|---|
自訂文件 | 文件智慧 3.1 | 文件智慧 SDK | Document Intelligence Studio |
要定型模型的 Build
作業支援新的 buildMode
屬性,若要定型自訂神經模型,請將 buildMode
設定為 neural
。
https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
https://{endpoint}/formrecognizer/documentModels:build?api-version=v3.1:2023-07-31
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
https://{endpoint}/formrecognizer/documentModels/{modelId}:copyTo?api-version=2022-08-31
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
計費
從版本 2024-07-31-preview
開始,您可以定型自訂神經模型,持續時間可比標準 30 分鐘長。 舊版限制為每個定型執行個體 30 分鐘,每月總共有 20 個免費定型執行個體。 現在使用 2024-07-31-preview
,您可以收到 10 小時的免費模型定型,並且定型模型長達 10 小時。
您可以選擇在具有大型資料集的單一模型組建上花費全部的免費 10 小時,或藉由指定 maxTrainingHours
來調整 build
作業的最大持續時間值,在多個組建中利用此免費小時數:
POST https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
...,
"maxTrainingHours": 10
}
重要
- 如果您想要定型額外的神經模型,或定型模型的時間超過 10 小時,則需要付費。 如需帳單費用的詳細資料,請參閱 價格頁面。
- 您可以將
maxTrainingHours
設定為所需的最大時數,以加入此付費定型服務。 沒有預算但maxTrainingHours
設定為超過 10 小時的 API 呼叫將會失敗。 - 由於每個組建需要不同的時間量,取決於定型資料集的類型和大小,因此帳單是針對定型神經模型所花費的實際時間所計算的,每個定型作業至少 30 分鐘。
- 此付費定型功能可讓您有彈性的定型時數,以更長的期間定型更大的資料集。
GET /documentModels/{myCustomModel}
{
"modelId": "myCustomModel",
"trainingHours": 0.23,
"docTypes": { ... },
...
}
注意
對於文件智慧服務版本 v3.1 (2023-07-31)
和 v3.0 (2022-08-31)
,不會啟用自訂神經模型的付費定型。 對於這兩個較舊的版本,每個模型最多會有 30 分鐘的定型期間。 如果您想要定型超過 20 個模型執行個體,則可以建立 Azure 支援票證以提高定型限制。
計費
針對文件智慧服務版本 v3.1 (2023-07-31) and v3.0 (2022-08-31)
,每個模型最多會收到 30 分鐘的定型期間,每月最多 20 次免費定型。 如果您想要定型超過 20 個模型執行個體,則可以建立 Azure 支援票證以提高定型限制。 針對 Azure 支援票證,請在 summary
欄位中輸入:Increase Document Intelligence custom neural training (TPS) limit
。
重要
- 提高定型限制時,請注意,2 個自訂神經模型定型工作階段將會被視為 1 個定型小時。 如需增加訓練課程數目之定價的詳細資訊, 請參閱* 定價頁面。
- 用於提高定型限制的 Azure 支援票證只能在資源層級套用,而不是訂用帳戶層級。 您可以在支援票證中指定資源識別碼和地區,以要求提高單一文件智慧服務資源的定型限制。
如果您想要定型模型超過 30 分鐘的持續時間,我們支援使用最新版本 v4.0 (2024-07-31-preview)
進行付費定型。 使用最新版本,您可以定型模型更長的時間,以處理較大的文件。 如需付費定型的詳細資訊,請參閱 計費 v4.0。
計費
針對文件智慧服務版本 v3.1 (2023-07-31) and v3.0 (2022-08-31)
,每個模型最多會收到 30 分鐘的定型期間,每月最多 20 次免費定型。 如果您想要定型超過 20 個模型執行個體,則可以建立 Azure 支援票證以提高定型限制。 針對 Azure 支援票證,請在 summary
欄位中輸入:Increase Document Intelligence custom neural training (TPS) limit
。
重要
- 提高定型限制時,請注意,2 個自訂神經模型定型工作階段將會被視為 1 個定型小時。 如需增加訓練課程數目之定價的詳細資訊,請參閱定價頁面。
- 用於提高定型限制的 Azure 支援票證只能在資源層級套用,而不是訂用帳戶層級。 您可以在支援票證中指定資源識別碼和地區,以要求提高單一文件智慧服務資源的定型限制。
如果您想要定型模型超過 30 分鐘的持續時間,我們支援使用最新版本 v4.0 (2024-07-31)
進行付費定型。 使用最新版本,您可以定型模型更長的時間,以處理較大的文件。 如需付費定型的詳細資訊,請參閱 計費 v4.0。
下一步
了解如何建立和撰寫自訂模型: