文件智慧撰寫的自訂模型
重要
- 文件智慧服務公開預覽版本可讓您搶先存取正在積極開發的功能。 根據使用者意見反應,功能、方法和流程在正式發行 (GA) 前可能有所變更。
- 文件智慧服務用戶端程式庫的公開預覽版預設為 REST API 版本 2024-07-31-preview。
- 公開預覽版 2024-07-31-preview 目前僅適用於下列 Azure 地區。 請注意,AI Studio 中的自訂生成 (文件欄位擷取) 模型僅適用美國中北部地區:
- 美國東部
- 美國西部 2
- 西歐
- 美國中北部
此內容適用於: v3.1 (GA) | 最新版本: v4.0 (預覽版) | 舊版: v3.0 v2.1
此內容適用於: v3.0 (GA) | 最新版本: v4.0 (預覽版) v3.1 | 舊版: v2.1
此內容適用於: v2.1 | 最新版本: v4.0 (預覽版)
重要
model compose
作業行在 api-version=2024-07-31-preview 中出現變更。 model compose
作業 v4.0 和更新版本會新增明確訓練的分類器進行分析,而不是使用隱含分類器。 關於先前的組成模型版本,請參閱組成自訂模型 v3.1。 如果您目前使用組成模型,請考慮升級至最新的實作。
什麼是組成模型?
使用組成模型時,您可以將多個自訂模型分組到使用單一模型識別碼所呼叫的組成模型。 例如,您的撰寫模型可能包含定型的自訂模型,以便分析您的供應、設備及設施購買訂單。 您可以使用撰寫模型來針對每次分析和擷取判斷適當的自訂模型,而不必嘗試手動選取適當的模型。
有些案例需要先分類文件,然後使用最適合從模型擷取欄位的模型來分析文件。 這類案例包含使用者上傳文件,但無法明確知道文件類型的案例。 另一個案例是將多個文件一起掃描到單一檔案,並提交檔案進行處理。 接著,您的應用程式必須識別元件文件,並為每個文件選取最佳模型。
在舊版中,model compose
作業會執行隱含分類,決定哪一個自訂模型最能代表提交的文件。 model compose
作業的 2024-07-31-preview
實作會以明確的分類步驟取代舊版的隱含分類,並新增條件式路由。
新模型組成作業的優點
新的 model compose
作業會要求您訓練明確的分類器,並提供多個優點。
持續累加改善。 您可以藉由新增更多樣本並累加改善分類,來持續改善分類器的品質。 這項微調可確保文件都會路由至正確的模型來進行擷取。
透過路由實現完全控制。 藉由新增以信賴為基礎的路由,您可以為文件類型和分類回應提供信賴等級閾值。
在作業期間忽略文件專屬的文件類型。 先前的
model compose
作業實作會根據信賴度分數選取最適合進行擷取的分析模型,即使最高的信賴分數相對較低也一樣。 藉由提供信賴等級閾值,或明確地使已知文件類型不會從分類對應至擷取模型,即可忽略特定的文件類型。分析相同文件類型的多個執行個體。 與分類器的
splitMode
選項配對時,model compose
作業可以偵測檔案中相同文件的多個執行個體,並分割檔案以獨立處理每個文件。 使用splitMode
可在單一要求中處理文件的多個執行個體。支援附加元件功能。 附加元件功能 (例如查詢欄位或條碼功能) 也可以指定為分析模型參數的一部分。
指派的自訂模型上限已擴充至 500 個。
model compose
作業的新實作可讓您將最多 500 個訓練的自訂模型指派給單一組成模型。
如何使用模型組成
首先,收集所有必要的文件樣本,包括應擷取或忽略其中資訊的樣本。
將文件放在資料夾中組織以訓練分類器,這些資料夾的名稱必須是您想要在組成模型定義中使用的檔案類型。
最後,針對您要使用的每個文件類型訓練擷取模型。
訓練分類和擷取模型之後,請使用文件智慧服務工作室、用戶端程式庫或 REST API,將分類和擷取模型組成一個組成模型。
使用 splitMode
參數來控制檔案分割行為:
- None: 整個檔案會視為單一文件。
- perPage. 檔案中的每個頁面都會被視為個別的文件。
- auto.檔案會自動分割成文件。
帳單和定價
組成模型的計費方式會與個別自訂模型一樣。 價格會以下游分析模型分析的頁面數目為基礎。 計費會以路由至擷取模型之頁面的擷取價格為基礎。 新增明確分類時,輸入檔中所有頁面的分類都會產生費用。 如需詳細資訊,請參閱文件智慧服務價格頁面。
使用模型撰寫作業
首先,為您想要組合至單一模型的所有模型識別碼建立清單。
使用工作室、REST API 或用戶端程式庫,將模型組合至單一模型識別碼。
使用組成模型識別碼來分析文件。
計費
組成模型的計費方式會與個別自訂模型一樣。 價格會以分析的頁面數目為基礎。 計費會以路由至擷取模型之頁面的擷取價格為基礎。 如需詳細資訊,請參閱文件智慧服務價格頁面。
- 使用個別自訂模型或組合自訂模型來分析文件的價格沒有改變。
組成模型功能
Custom template
和custom neural
模型可以組合成跨多個 API 版本的單一組成模型。回應會包含
docType
屬性,指出哪一個撰寫的模型用來分析文件。針對
custom template
模型,可以使用自訂範本的變化或不同的表單類型來建立組成模型。 當傳入表單屬於數個範本的其中一個時,此作業會很有用。針對
custom neural
模型,最佳做法是將所有不同的單一文件類型新增至單一定型資料集,並在自訂神經模型上定型。 當您提交不同類型的文件進行分析時,最適合使用model compose
作業。
撰寫模型限制
使用
model compose
作業時,您最多可以將 500 個模型指派給單一模型識別碼。 如果您想要撰寫的模型數目超過已撰寫模型的上限,則可以使用下列其中一種替代方案:在呼叫自訂模型之前,請先分類文件。 您可以使用讀取模型,並使用程式碼、規則運算式或搜尋這類來源,以根據從文件擷取的文字和特定片語來建置分類。
如果您想要從各種結構化、半結構化和非結構化文件中擷取相同的欄位,則請考慮使用深度學習自訂神經模型。 深入了解自訂範本模型與自訂神經模型之間的差異。
使用組合模型分析文件與使用單一模型來分析文件完全相同。
Analyze Document
結果會傳回docType
屬性,指出您選取用於分析文件的元件模型。model compose
目前僅適用於使用標籤來訓練的自訂模型。
組成模型相容性
自訂模型類型 | 使用 v2.1 和 v2.0 定型的模型 | 自訂範本和神經模型 v3.1 和 v3.0 | 自訂範本和神經模型 v4.0 預覽版 | 自訂生成式模型 v4.0 預覽版 |
---|---|---|---|---|
使用版本 2.1 和 v2.0 定型的模型 | 不支援 | 不支援 | 不支援 | 不支援 |
自訂範本和神經模型 v3.0 和 v3.1 | 不支援 | 支援 | 已支援 | 不支援 |
自訂範本和神經模型 v4.0 預覽版 | 不支援 | 支援 | 已支援 | 不支援 |
自訂生成式模型 v4.0 預覽版 | 不支援 | 不支援 | 不支援 | 不支援 |
若要撰寫使用舊版 API (v2.1 或更早版本) 已訓練的模型,請使用相同的標示資料集訓練 v3.0 API 模型。 此外,還會確保 v2.1 模型可與其他模型一起撰寫。
使用 API v2.1 撰寫的模型繼續受到支援,不需要更新。
開發選項
文件智慧服務 v4.0:2024-07-31-preview 支援以下工具、應用程式和程式庫:
功能 | 資源 |
---|---|
自訂模型 | • 文件智慧服務工作室 • REST API • C# SDK • JAVA SDK • JavaScript SDK • Python SDK |
組成模型 | • 文件智慧服務工作室 • REST API • C# SDK • JAVA SDK • JavaScript SDK • Python SDK |
文件智慧服務 v3.1:2023-07-31 (GA) 支援下列工具、應用程式和程式庫:
功能 | 資源 |
---|---|
自訂模型 | • 文件智慧服務工作室 • REST API • C# SDK • JAVA SDK • JavaScript SDK • Python SDK |
組成模型 | • 文件智慧服務工作室 • REST API • C# SDK • JAVA SDK • JavaScript SDK • Python SDK |
文件智慧服務 v3.0:2022-08-31 (GA) 支援下列工具、應用程式和程式庫:
功能 | 資源 |
---|---|
自訂模型 | • 文件智慧服務工作室 • REST API • C# SDK • JAVA SDK • JavaScript SDK • Python SDK |
組成模型 | • 文件智慧服務工作室 • REST API • C# SDK • JAVA SDK • JavaScript SDK • Python SDK |
文件智慧 v2.1 支援下列資源:
功能 | 資源 |
---|---|
自訂模型 | • 文件智慧服務標記工具 • REST API • 用戶端程式庫 SDK • 文件智慧服務 Docker 容器 |
組成模型 | • 文件智慧服務標記工具 • REST API • C# SDK • JAVA SDK • JavaScript SDK • Python SDK |
下一步
了解如何建立和撰寫自訂模型: