組成自訂模型

2025-04-30

強調樣式

此內容適用於：v4.0 (GA) | 舊版：v3.1 (GA)v3.0 (GA)v2.1 (GA)

此內容適用於：v3.1 （GA） | 最新版本：v4.0 （GA） | 舊版：v3.0v2.1

此內容適用於：v3.0 (GA) | 最新版本：v4.0 (GA)v3.1 | 舊版：v2.1

此內容適用於：v2.1 | 最新版本：v4.0 (GA)

重要

api-version=2024-11-30 (GA) 的模型撰寫行為已變更。如需詳細資訊，請參閱撰寫的自定義模型。下列行為 僅適用於 v3.1 和舊版。

撰寫模型的建立方式是取得自訂模型的集合，並將其指派給單一模型識別碼。您最多可以將 200 個已訓練的自訂模型指派給單一的已撰寫模型識別碼。將文件提交至撰寫模型時，服務會執行分類步驟，以決定哪一個自訂模型精確地代表呈現用於分析的表單。合成模型在您訓練多個模型並需要將它們分組以分析類似表單類型時非常有用。例如，您已撰寫的模型可能包含訓練來分析供應採購單、設備採購單及家具採購單的自訂模型。您可以使用撰寫模型來針對每次分析和擷取判斷適當的自訂模型，而不必嘗試手動選取適當的模型。

若要深入了解，請參閱撰寫的自訂模型。

在本文中，您了解如何建立和使用撰寫的自訂模型來分析表單和文件。

必要條件

若要開始使用，您需要下列資源：

Azure 訂用帳戶。您可以建立免費的 Azure 訂用帳戶。
文件智慧服務執行個體。擁有 Azure 訂用帳戶之後，在 Azure 入口網站中建立文件智慧服務，以取得您的金鑰和端點。如果您有現有的文件智慧服務資源，請直接瀏覽至您的資源頁面。您可以使用免費定價層 (F0) 來試用服務，之後可升級至付費層以用於生產環境。
1. 資源進行部署後，選取 [移至資源]。
2. 從 Azure 入口網站複製 [金鑰和端點] 值，並將其貼到方便的位置，例如 Microsoft 記事本。您需要金鑰和端點值，才能將應用程式連線至文件智慧服務 API。

顯示如何存取資源金鑰與端點 URL 的靜態相片。

提示

如需詳細資訊，請參閱建立文件智慧服務資源。

一個 Azure 儲存體帳戶。 如果您不知道如何建立 Azure 儲存體帳戶，請遵循適用於 Azure 入口網站的 Azure 儲存體快速入門。您可以使用免費定價層 (F0) 來試用服務，之後可升級至付費層以用於生產環境。

建立您的自訂模型

首先，您需要一組自訂模型來進行撰寫。您可以使用文件智慧服務工作室、REST API 或用戶端程式庫。步驟如下：

組建你的訓練資料集
將訓練集上傳至 Azure Blob 儲存體
訓練自訂模型

組合訓練資料集

組建自訂模型從建立訓練資料集開始。針對範例資料集，您會需要至少五個相同類型的已完成表單。這些表單可以是不同類型的檔案 (jpg、png、pdf、tiff)，並可以同時包含文字與手寫。您的表單必須遵循文件智慧服務的輸入需求。

提示

請遵循下列提示來最佳化資料集，以便進行訓練：

可以的話，請使用文字型 PDF 文件，而不是影像型文件。掃描的 PDF 將視為影像處理。
對於填寫好的表單，請使用所有欄位都已填滿的範例。
使用在每個欄位中具有不同值的表單。
如果您的表單影像品質較低，請使用較大的資料集 (例如 10-15 影像)。

如需如何收集訓練文件的提示，請參閱組建訓練資料集 (部分機器翻譯)。

上傳訓練資料集

在收集一組訓練文件後，就必須上傳訓練資料 (英文) 到 Azure Blob 儲存體容器。

如果您想要使用手動標記的資料，您必須上傳對應至訓練文件的 .labels.json 和 .ocr.json 檔案。

訓練自訂模型

當您使用已標記的資料定型您的模型時，模型會使用您提供的已標記表單來進行監督式學習，以此來擷取感興趣的值。已標記資料會造就表現更佳的模型，並可產生與複雜表單或含有值 (但不含索引鍵) 的表單搭配使用的模型。

文件智慧服務會使用預建版面配置模型 API 來學習字樣與手寫文字元素的預期大小與位置，並擷取資料表。然後，其會以使用者指定的標籤來學習文件中的索引鍵/值關聯與資料表。建議使用相同類型 (相同結構) 的五個手動已標記表單，以便開始定型新的模型。然後，視需要新增更多已標記資料，以改善模型精確度。文件智慧服務可定型模型，以便使用監督式學習功能擷取索引鍵值組與資料表。

若要建立自訂模型，請從設定專案開始：

在工作室首頁，從 [自訂模型] 卡片中選取 [新建]。
使用 ➕ [建立專案] 命令來啟動新的專案設定精靈。
輸入專案詳細資料、選取 Azure 訂用帳戶和資源，以及包含您資料的 Azure Blob 儲存體容器。
檢閱和提交您的設定，並建立專案。

顯示在文件智慧服務工作室中建立自訂專案的動畫。

建立自定義模型時，您可能需要從文件擷取數據集合。集合可能會顯示兩種格式的其中一種。將資料表用做視覺模式：

一組給定欄位 (資料行) 之值 (資料列) 的動態或變數計數
一組給定欄位 (資料行和/或資料列) 之值的特定集合

請參閱文件智慧服務工作室：標示為資料表 (部分機器翻譯)

在某些情況下，使用標籤來訓練會讓效能更佳。若要使用標籤來訓練，您的 Blob 儲存體容器中除了訓練文件以外，還必須要有特殊的標籤資訊檔案 (<filename>.pdf.labels.json)。

標籤檔案包含使用者手動輸入且是訓練已標記資料所需的索引鍵/值關聯。不過，並非每個來源檔案都需要對應的標籤檔案。系統會將沒有標籤的原始檔被處理為一般訓練文件。建議您使用五個以上的已標記檔案，以進行可靠的訓練。您可以使用像是文件智慧服務工作室之類的 UI 工具來產生這些檔案。

標籤檔案包含使用者手動輸入的索引鍵/值關聯。已標記的資料訓練需要這些檔案，但並非每個來源檔案都必須有對應的標籤檔案。系統會將沒有標籤的原始檔視為普通的訓練文件。我們建議使用五個或更多已標籤的檔案，以便進行可靠的訓練。您可以使用像是文件智慧服務工作室之類的 UI 工具來產生這些檔案。

有了標籤檔案後，便可藉由呼叫訓練方法並將「useLabelFile」參數設為 true 來納入這些檔案。

顯示 useLabelFile 選擇性參數的螢幕擷取畫面。

在某些情況下，使用標籤來訓練會讓效能更佳。若要使用標籤來訓練，您的 Blob 儲存體容器中除了訓練文件以外，還必須要有特殊的標籤資訊檔案 (<filename>.pdf.labels.json)。有了這些檔案之後，即可呼叫定型方法，且將 useTrainingLabels 參數設為 true。

語言	方法
C#	StartBuildModel
Java	beginBuildModel
JavaScript	beginBuildModel
Python	開始建立文件模型

建立組合模型

注意事項

create compose model 操作僅適用於使用標籤訓練的自訂模型。 嘗試撰寫未標記的模型會產生錯誤。

使用建立撰寫模型作業，您最多可以將 100 個已訓練的自訂模型指派給單一模型識別碼。使用撰寫模型分析文件時，文件智慧服務會先將您提交的表單分類，然後選擇最相符的指派模型，並傳回該模型的結果。當傳入表單可能屬於數個範本的其中一個時，此作業會很有用。

訓練流程成功完成後，即可開始建置組成模型。以下是建立和使用撰寫模型的步驟：

收集自訂模型識別碼
撰寫自訂模型
分析文件
管理您的撰寫模型

收集您的模型識別碼

當您使用文件智慧服務工作室來定型模型時，模型識別碼會位於專案下的 [模型] 功能表中：

文件智慧服務工作室中模型設定視窗的螢幕擷取畫面。

撰寫自訂模型

選取自訂模型專案。
在專案中，選取 Models 功能表項目。
從產生的模型清單中，選取您想要撰寫的模型。
選擇左上角的撰寫按鈕。
在快顯視窗中，為新撰寫的模型命名，然後選取 [撰寫]。
作業完成時，新撰寫的模型會隨即出現在清單中。
模型就緒之後，使用 [Test] 命令來驗證模型和測試文件，然後觀察結果。

分析文件

自訂模型分析作業要求您將呼叫中的 modelID 提供給文件智慧服務。您應為應用程式中的 modelID 參數提供撰寫模型識別碼。

在 Document Intelligence Studio 中所組成模型 ID 的螢幕擷取畫面。

管理您的組合模型

您可以在整個生命週期中管理自訂模型：

測試並驗證新文件。
下載模型以便在應用程式中使用。
模型的生命週期完成後，請將模型刪除。

在文件智慧服務工作室中所組成的模型之螢幕擷取畫面

訓練流程成功完成後，即可開始建置組成模型。以下是建立和使用撰寫模型的步驟：

建立撰寫模型
分析文件
管理您的撰寫模型

建立組合模型

您可以使用自己選擇的程式設計語言來建立撰寫模型：

程式設計語言	程式碼範例
C#	模型撰寫
Java	模型撰寫
JavaScript	撰寫模型
Python	建立組合模型

分析文件

建置組成模型後，即可使用該模型來分析表單和文件。使用您組合的model ID，讓服務根據提供的文件來決定哪一個彙整的自訂模型最合適。

程式設計語言	程式碼範例
C#	使用模型識別碼透過自訂/撰寫模型分析物件
Java	使用模型識別碼透過自訂/撰寫模型分析物件
JavaScript	使用模型識別碼透過自訂/撰寫模型分析物件
Python	使用模型識別碼透過自訂/撰寫模型分析物件

管理已撰寫的模型

您可以在該模型生命週期的每個階段管理自訂模型。您可以複製資源間的自訂模型、檢視訂用帳戶底下所有自訂模型的清單、擷取特定自訂模型的相關資訊，以及從您的帳戶中刪除自訂模型。

程式設計語言	程式碼範例
C#	在文件智慧服務資源之間複製自訂模型
Java	在文件智慧服務資源之間複製自訂模型
JavaScript	在文件智慧服務資源之間複製自訂模型
Python	在文件智慧服務資源之間複製自訂模型

太棒了！您已了解建立自訂與組成模型的步驟，並在文件智慧服務專案與應用程式中使用這些模型。

下一步

請嘗試其中一個文件智慧服務快速入門：

文件智慧服務使用進階機器學習技術來偵測及擷取文件影像中的資訊，並在結構化 JSON 輸出中傳回擷取的資料。透過文件智慧服務，您可以訓練獨立自訂模型或合併自訂模型來建立組成模型。

自訂模型。文件智慧服務自訂模型可讓您從業務特定表單與文件中分析及擷取資料。自訂模型會針對相異資料與使用案例進行訓練。
組成模型。組成模型的建立方式是取得自訂模型的集合，並將其指派給包含您表單類型的單一模型。將文件提交至撰寫模型時，服務會執行分類步驟，以決定哪一個自訂模型精確地代表呈現用於分析的表單。

在本文中，了解如何使用我們的文件智慧服務範例標記工具、REST API 或用戶端程式庫來建立文件智慧服務自訂及組成模型。

範例標記工具

嘗試使用我們的範例標記工具，從自訂表單擷取資料。您需要下列資源：

Azure 訂用帳戶 - 您可建立一個免費訂用帳戶
Azure 入口網站中的 Document Intelligence 執行個體。您可以使用免費定價層 (F0) 來試用服務。部署資源後，選取 [前往資源] 以取得金鑰和端點。

Azure 入口網站中金鑰與端點位置的螢幕擷取畫面。

試試看

在文件智慧服務 UI 中：

選取 [Use Custom to train a model with labels and get key value pairs] \(使用自訂訓練具有標籤的模型並取得索引鍵/值組\)。

「FOTT」工具選取自訂模型選項的螢幕擷取畫面。

在下一個視窗中，選取 [新增專案]：

「FOTT」工具選取新專案選項的螢幕擷取畫面。

建立模型

建置、訓練及使用自訂與組成模型的步驟如下：

準備您的訓練資料集
將訓練集上傳至 Azure Blob 儲存體
訓練自訂模型
組成自訂模型
分析文件
管理您的自訂模型

組合訓練資料集

建置自訂模型從建立訓練資料集開始。針對範例資料集，您會需要至少五個相同類型的已完成表單。這些表單可以是不同類型的檔案 (jpg、png、pdf、tiff)，並可以同時包含文字與手寫。您的表單必須遵循文件智慧服務的輸入需求。

上傳訓練資料集

您必須將訓練資料上傳至 Azure Blob 儲存體容器。若您不知道如何使用容器建立 Azure 儲存體帳戶，請參閱適用於 Azure 入口網站的 Azure 儲存體快速入門。您可以使用免費定價層 (F0) 來試用服務，之後可升級至付費層以用於生產環境。

訓練您的自訂模型

您可以使用已標記的資料集來訓練模型。已標記的資料集依賴預建版面配置 API，但會納入輔助的人類輸入，例如您的特定標籤與欄位位置。針對您已標記的訓練資料，請從至少五個相同類型的已完成表單開始。

當您使用已標記的資料進行訓練時，模型會使用您提供的已標記表單來監督學習，以擷取感興趣的值。已標記資料會造就表現更佳的模型，並可產生與複雜表單或含有值 (但不含索引鍵) 的表單搭配使用的模型。

文件智慧服務會使用版面配置 API 來學習字樣與手寫文字元素的預期大小與位置和擷取資料表。然後，其會以使用者指定的標籤來學習文件中的索引鍵/值關聯與資料表。我們建議在訓練新模型時，使用相同類型（相同結構）的五個手動標記表單作為起步。視需要新增更多已標記資料，以改善模型精確度。文件智慧服務可定型模型，以便使用監督式學習功能擷取索引鍵值組與資料表。

開始使用標籤進行訓練

[!影片 https://learn.microsoft.com/Shows/Docs-Azure/Azure-Form-Recognizer/player]

建立組合模型

注意事項

模型撰寫僅適用於「使用」標籤進行訓練的自訂模型。 嘗試撰寫未標記的模型會產生錯誤。

使用模型撰寫作業，您最多可以將 200 個已訓練的自訂模型指派給單一模型識別碼。當您使用組成模型識別碼呼叫分析時，文件智慧服務會先將您所提交的表單分類、選擇最相符的指派模型，然後再傳回該模型的結果。當傳入表單可能屬於數個範本的其中一個時，此作業會很有用。

使用文件智慧服務範例標記工具、REST API 或用戶端程式庫，遵循以下步驟來設定組成模型：

收集自訂模型識別碼
撰寫自訂模型

收集自訂模型識別碼

訓練流程成功完成之後，您的自訂模型就會獲指派模型識別碼。您可以擷取模型識別碼，如下所示：

當您使用 文件智慧服務範例標記工具 來訓練模型時，模型 ID 會位於「訓練結果」視窗中。

訓練結果的螢幕擷圖。

撰寫自訂模型

收集對應至單一表單類型的自訂模型之後，您可以將其組成單一模型。

範例標記工具可讓您快速開始訓練模型，並將其組成單一模型識別碼。

訓練完成之後，請組成模型，如下所示：

在左側滑軌功能表上，選取 [模型撰寫] 圖示 (合併箭號)。
在主視窗中，選取您想要指派給單一模型識別碼的模型。具有箭號圖示的模型是已經撰寫好的模型。
從左上角選擇 [撰寫] 按鈕。
在快顯視窗中，為新撰寫的模型命名，然後選取 [撰寫]。

作業完成時，新撰寫的模型會隨即出現在清單中。

使用自訂或組成模型來分析文件

自訂表單分析作業要求您將呼叫中的 modelID 提供給文件智慧服務。您可以為 modelID 參數提供單一自訂模型識別碼或組成模型識別碼。

在工具的左窗格功能表上，選取Analyze圖示 (燈泡)。
選擇要分析的本機檔案或影像 URL。
選取 [執行分析] 按鈕。
此工具會將標籤套用至周框方塊中，且會報告每個標籤的信賴度百分比。

文件智慧服務工具 analyze-a-custom-form 視窗的螢幕擷取畫面。

藉由分析表單 (其不屬於訓練資料集) 來測試新訓練的模型。根據所報告的正確性，您可以進行進一步的訓練以改善模型。您可以繼續進一步訓練以改善結果。

管理您的自訂模型

您可以檢視訂閱下所有自訂模型的清單、擷取特定自訂模型的資訊，以及從帳戶中刪除自訂模型，在整個生命週期中管理您的自訂模型。

太棒了！您已了解建立自訂與組成模型的步驟，並在文件智慧服務專案與應用程式中使用這些模型。

下一步

探索我們的 API 參考文件，以深入了解文件智慧服務用戶端程式庫。

文件智慧服務 API 參考

共用方式為

組成自訂模型

必要條件

建立您的自訂模型

組合訓練資料集

上傳訓練資料集

訓練自訂模型

建立組合模型

收集您的模型識別碼

撰寫自訂模型

分析文件

管理您的組合模型

下一步

範例標記工具

建立模型

組合訓練資料集

上傳訓練資料集

訓練您的自訂模型

建立組合模型

收集自訂模型識別碼

撰寫自訂模型

使用自訂或組成模型來分析文件

管理您的自訂模型

下一步

意見反應

其他資源