組成自訂模型
強調樣式此內容適用於: v3.1 (GA) | 最新版本: v4.0 (預覽版) | 舊版: v3.0 v2.1
此內容適用於: v3.0 (GA) | 最新版本: v4.0 (預覽版) v3.1 | 舊版: v2.1
此內容適用於: v2.1 | 最新版本: v4.0 (預覽版)
重要
api-version=2024-07-31-preview 及更新版本會變更模型組成行為,如需更多資訊,請參閱組成自訂模型 (英文)。 下列行為僅適用於 v3.1 和舊版
撰寫模型的建立方式是取得自訂模型的集合,並將其指派給單一模型識別碼。 您最多可以將 200 個已定型的自訂模型指派給單一撰寫模型識別碼。 將文件提交至撰寫模型時,服務會執行分類步驟,以決定哪一個自訂模型精確地代表呈現用於分析的表單。 在您已訓練數個模型,並想要將其分組以分析類似表單類型時,組成模型很有幫助。 例如,您的撰寫模型可能包含定型的自訂模型,以便分析您的供應、設備及設施購買訂單。 您可以使用撰寫模型來針對每次分析和擷取判斷適當的自訂模型,而不必嘗試手動選取適當的模型。
若要深入了解,請參閱撰寫的自訂模型。
在本文中,您了解如何建立和使用撰寫的自訂模型來分析表單和文件。
必要條件
若要開始使用,您需要下列資源:
Azure 訂用帳戶。 您可以建立免費的 Azure 訂用帳戶。
文件智慧服務執行個體。 擁有 Azure 訂用帳戶之後,在 Azure 入口網站中建立文件智慧服務,以取得您的金鑰和端點。 如果您有現有的文件智慧服務資源,請直接瀏覽至您的資源頁面。 您可以使用免費定價層 (F0) 來試用服務,之後可升級至付費層以用於生產環境。
部署資源後,請選取 [前往資源]。
從 Azure 入口網站複製 [金鑰和端點] 值,並將其貼到方便的位置,例如 Microsoft 記事本。 您需要金鑰和端點值,才能將應用程式連線至文件智慧服務 API。
提示
如需詳細資訊,請參閱建立文件智慧服務資源。
- 一個 Azure 儲存體帳戶。 如果您不知道如何建立 Azure 儲存體帳戶,請遵循適用於 Azure 入口網站的 Azure 儲存體快速入門。 您可以使用免費定價層 (F0) 來試用服務,之後可升級至付費層以用於生產環境。
建立您的自訂模型
首先,您需要一組自訂模型來進行撰寫。 您可以使用文件智慧服務工作室、REST API 或用戶端程式庫。 步驟如下:
組合定型資料集
建置自訂模型會從建立定型資料集開始。 針對範例資料集,您會需要至少五個相同類型的已完成表單。 這些表單可以是不同類型的檔案 (jpg、png、pdf、tiff),並可以同時包含文字與手寫。 您的表單必須遵循文件智慧服務的輸入需求。
提示
請遵循下列秘訣來最佳化資料集,以便進行定型:
- 可以的話,請使用文字型 PDF 文件,而不是影像型文件。 掃描的 PDF 將視為影像處理。
- 如果是填寫表單,請使用已填寫所有欄位的範例。
- 使用在每個欄位中具有不同值的表單。
- 如果您的表單影像品質較低,請使用較大的資料集 (例如 10-15 影像)。
如需如何收集定型文件的秘訣,請參閱建立定型資料集。
上傳定型資料集
在收集一組訓練文件後,就必須上傳訓練資料 (英文) 到 Azure Blob 儲存體容器。
如果您想要使用手動標記的資料,您必須上傳對應至定型文件的 .label.json 和 .ocr.json 檔案。
定型自訂模型
當您使用已標記的資料定型您的模型時,模型會使用您提供的已標記表單來進行監督式學習,以此來擷取感興趣的值。 已標記資料會造就表現更佳的模型,並可產生與複雜表單或含有值 (但不含索引鍵) 的表單搭配使用的模型。
文件智慧服務會使用預建版面配置模型 API 來學習字樣與手寫文字元素的預期大小與位置,並擷取資料表。 然後,其會以使用者指定的標籤來學習文件中的索引鍵/值關聯與資料表。 建議使用相同類型 (相同結構) 的五個手動已標記表單,以便開始定型新的模型。 然後,視需要新增更多已標記資料,以改善模型精確度。 文件智慧服務可定型模型,以便使用監督式學習功能擷取索引鍵值組與資料表。
若要建立自訂模型,請從設定專案開始:
在工作室首頁,從 [自訂模型] 卡片中選取 [新建]。
使用 ➕ [建立專案] 命令來啟動新的專案設定精靈。
輸入專案詳細資料、選取 Azure 訂用帳戶和資源,以及包含您資料的 Azure Blob 儲存體容器。
檢閱和提交您的設定,並建立專案。
在建立自訂模型時,您可能會需要從文件中擷取資料集合。 集合顯示的格式可能是兩種的其中一種。 將資料表用做視覺模式:
動態或變數計數,針對的是一組給定欄位 (資料行) 的值 (資料列)
特定集合,針對的是一組給定欄位 (資料行和/或資料列) 的值
建立撰寫模型
注意
create compose model
作業僅適用於「使用」標籤來定型的自訂模型。 嘗試撰寫未標記的模型會產生錯誤。
使用建立撰寫模型作業,您最多可以將 100 個已訓練的自訂模型指派給單一模型識別碼。 使用撰寫模型分析文件時,文件智慧服務會先將您提交的表單分類,然後選擇最相符的指派模型,並傳回該模型的結果。 當傳入表單可能屬於數個範本的其中一個時,此作業會很有用。
訓練流程成功完成後,即可開始建置組成模型。 以下是建立和使用撰寫模型的步驟:
收集您的模型識別碼
當您使用文件智慧服務工作室來定型模型時,模型識別碼會位於專案下的 [模型] 功能表中:
撰寫自訂模型
選取自訂模型專案。
在專案中,選取
Models
功能表項目。從產生的模型清單中,選取您想要撰寫的模型。
從左上角選擇 [撰寫] 按鈕。
在快顯視窗中,為新撰寫的模型命名,然後選取 [撰寫]。
作業完成時,新撰寫的模型會隨即出現在清單中。
模型就緒之後,使用 [Test] 命令來驗證模型和測試文件,然後觀察結果。
分析文件
自訂模型分析作業要求您將呼叫中的 modelID
提供給文件智慧服務。 您應為應用程式中的 modelID
參數提供撰寫模型識別碼。
管理您的撰寫模型
您可以在整個生命週期中管理自訂模型:
- 測試並驗證新文件。
- 下載模型以便在應用程式中使用。
- 模型的生命週期完成後,請將模型刪除。
太棒了! 您已了解建立自訂與組成模型的步驟,並在文件智慧服務專案與應用程式中使用這些模型。
下一步
請嘗試其中一個文件智慧服務快速入門:
文件智慧服務使用進階機器學習技術來偵測及擷取文件影像中的資訊,並在結構化 JSON 輸出中傳回擷取的資料。 透過文件智慧服務,您可以訓練獨立自訂模型或合併自訂模型來建立組成模型。
自訂模型。 文件智慧服務自訂模型可讓您從業務特定表單與文件中分析及擷取資料。 自訂模型會針對相異資料與使用案例進行訓練。
組成模型。 組成模型的建立方式是取得自訂模型的集合,並將其指派給包含您表單類型的單一模型。 將文件提交至撰寫模型時,服務會執行分類步驟,以決定哪一個自訂模型精確地代表呈現用於分析的表單。
在本文中,了解如何使用我們的文件智慧服務範例標記工具、REST API 或用戶端程式庫來建立文件智慧服務自訂及組成模型。
範例標記工具
嘗試使用我們的範例標記工具,從自訂表單擷取資料。 您需要下列資源:
Azure 訂用帳戶 - 您可建立一個免費訂用帳戶
Azure 入口網站中的 Document Intelligence 執行個體。 您可以使用免費定價層 (
F0
) 來試用服務。 部署資源後,選取 [前往資源] 以取得金鑰和端點。
在文件智慧服務 UI 中:
- 選取 [Use Custom to train a model with labels and get key value pairs] \(使用自訂訓練具有標籤的模型並取得索引鍵/值組\)。
- 在下一個視窗中,選取 [新增專案]:
建立模型
建置、訓練及使用自訂與組成模型的步驟如下:
組合定型資料集
建置自訂模型會從建立定型資料集開始。 針對範例資料集,您會需要至少五個相同類型的已完成表單。 這些表單可以是不同類型的檔案 (jpg、png、pdf、tiff),並可以同時包含文字與手寫。 您的表單必須遵循文件智慧服務的輸入需求。
上傳定型資料集
您必須將訓練資料上傳至 Azure Blob 儲存體容器。 若您不知道如何使用容器建立 Azure 儲存體帳戶,請參閱適用於 Azure 入口網站的 Azure 儲存體快速入門。 您可以使用免費定價層 (F0) 來試用服務,之後可升級至付費層以用於生產環境。
訓練自訂模型
您可以使用已標記的資料集來訓練模型。 已標記的資料集依賴預先建置的版面配置 API,但會包含補充人類輸入,例如您的特定標籤與欄位位置。 從至少五個相同類型且已標記訓練資料的已完成表單開始。
當您使用已標記的資料進行訓練時,模型會使用您提供的已標記表單來監督學習,以擷取感興趣的值。 已標記資料會造就表現更佳的模型,並可產生與複雜表單或含有值 (但不含索引鍵) 的表單一起使用的模型。
文件智慧服務會使用版面配置 API 來學習字樣與手寫文字元素的預期大小與位置和擷取資料表。 然後,其會以使用者指定的標籤來學習文件中的索引鍵/值關聯與資料表。 建議使用相同類型 (相同結構) 的五個手動已標記表單,以便在訓練新模型時開始使用。 視需要新增更多已標記資料,以改善模型精確度。 文件智慧服務可定型模型,以便使用監督式學習功能擷取索引鍵值組與資料表。
[!VIDEO https://learn.microsoft.com/Shows/Docs-Azure/Azure-Form-Recognizer/player]
建立撰寫模型
注意
模型撰寫僅適用於「使用」標籤來訓練的自訂模型。 嘗試撰寫未標記的模型會產生錯誤。
使用模型撰寫作業,您最多可以將 200 個已訓練的自訂模型指派給單一模型識別碼。 當您使用組成模型識別碼呼叫分析時,文件智慧服務會先將您所提交的表單分類、選擇最相符的指派模型,然後再傳回該模型的結果。 當傳入表單可能屬於數個範本的其中一個時,此作業會很有用。
使用文件智慧服務範例標記工具、REST API 或用戶端程式庫,遵循以下步驟來設定組成模型:
收集自訂模型識別碼
訓練流程成功完成之後,您的自訂模型就會獲指派模型識別碼。 您可以擷取模型識別碼,如下所示:
當您使用文件智慧服務範例標記工具 (英文) 來訓練模型時,模型識別碼會位於 [Train Result] \(訓練結果\) 視窗中:
撰寫自訂模型
收集對應至單一表單類型的自訂模型之後,您可以將其組成單一模型。
範例標記工具可讓您快速開始訓練模型,並將其組成單一模型識別碼。
訓練完成之後,請組成模型,如下所示:
在左側滑軌功能表上,選取模型撰寫圖示 (合併箭號)。
在主視窗中,選取您想要指派給單一模型識別碼的模型。 具有箭號圖示的模型是已經撰寫好的模型。
從左上角選擇 [Compose button] \(撰寫按鈕\)。
在快顯視窗中,為新撰寫的模型命名,然後選取 [撰寫]。
作業完成時,新撰寫的模型會隨即出現在清單中。
使用自訂或組成模型來分析文件
自訂表單分析作業要求您將呼叫中的 modelID
提供給文件智慧服務。 您可以為 modelID
參數提供單一自訂模型識別碼或組成模型識別碼。
在工具的左窗格功能表上,選取
Analyze
圖示 (燈泡)。選擇要分析的本機檔案或影像 URL。
選取 [執行分析] 按鈕。
此工具會將標籤套用至周框方塊中,且會報告每個標籤的信賴度百分比。
藉由分析表單 (其不屬於訓練資料集) 來測試新訓練的模型。 根據報告的精確度,您可以進一步定型以改善模型。 您可以繼續進一步訓練以改善結果。
管理您的自訂模型
您可以檢視訂閱下所有自訂模型的清單、擷取特定自訂模型的資訊,以及從帳戶中刪除自訂模型,在整個生命週期中管理您的自訂模型。
太棒了! 您已了解建立自訂與組成模型的步驟,並在文件智慧服務專案與應用程式中使用這些模型。
下一步
探索我們的 API 參考文件,以深入了解文件智慧服務用戶端程式庫。