組成自訂模型
此內容適用於:v4.0 (預覽) | 舊版:v3.1 (GA)v3.0 (GA)v2.1 (GA)
此內容適用於:v2.1 | 最新版本:v4.0(預覽)
撰寫的模型是藉由擷取自定義模型的集合,並將其指派給單一模型標識符來建立。 您最多可以將 200 個已定型的自訂模型指派給單一撰寫模型識別碼。 當檔提交至撰寫的模型時,服務會執行分類步驟,以判斷哪個自定義模型準確地代表呈現進行分析的窗體。 當您已定型數個模型,並想要將它們分組以分析類似的表單類型時,撰寫的模型會很有用。 例如,您撰寫的模型可能包含訓練以分析供應、設備和傢俱採購單的自定義模型。 您可以使用撰寫模型來判斷每個分析和擷取的適當自定義模型,而不是手動嘗試選取適當的模型。
若要深入瞭解,請參閱 撰寫的自定義模型。
在本文中,您了解如何建立和使用撰寫的自訂模型來分析表單和文件。
必要條件
若要開始使用,您需要下列資源:
Azure 訂用帳戶。 您可以 建立免費的 Azure 訂用帳戶。
文件智慧服務執行個體。 擁有 Azure 訂用帳戶之後,在 Azure 入口網站中建立文件智慧服務,以取得您的金鑰和端點。 如果您有現有的文件智慧服務資源,請直接瀏覽至您的資源頁面。 您可以使用免費定價層 (F0) 來試用服務,之後可升級至付費層以用於生產環境。
部署資源後,請選取 [前往資源]。
從 Azure 入口網站 複製 [金鑰] 和 [端點] 值,並將其貼到方便的位置,例如 Microsoft 記事本。 您需要金鑰和端點值,才能將應用程式連線至文件智慧服務 API。
提示
如需詳細資訊,請參閱建立文件智慧服務資源。
一個 Azure 儲存體帳戶。 如果您不知道如何建立 Azure 記憶體帳戶,請遵循 Azure 儲存體 快速入門以取得 Azure 入口網站。 您可以使用免費定價層 (F0) 來試用服務,之後可升級至付費層以用於生產環境。
建立您的自定義模型
首先,您需要一組自訂模型來進行撰寫。 您可以使用文件智慧服務工作室、REST API 或用戶端程式庫 SDK。 步驟如下:
組合定型數據集
建置自定義模型一開始會建立您的定型數據集。 針對範例資料集,您會需要至少五個相同類型的已完成表單。 它們可以是不同類型的檔類型(jpg、png、pdf、tiff),並同時包含文字和手寫。 您的表單必須遵循文件智慧服務的輸入需求。
提示
請遵循下列秘訣來優化數據集以進行定型:
- 可以的話,請使用文字型 PDF 文件,而不是影像型文件。 掃描的 PDF 將視為影像處理。
- 如果是填寫表單,請使用已填寫所有欄位的範例。
- 使用在每個欄位中具有不同值的表單。
- 如果您的表單影像品質較低,請使用較大的資料集 (例如 10-15 影像)。
如需如何收集訓練檔的秘訣,請參閱 建置定型數據集 。
上傳訓練數據集
當您收集了一組定型文件時,您必須將您的定型資料上傳至 Azure Blob 儲存體容器。
如果您想要使用手動標記的資料,您必須上傳對應至定型文件的 .label.json 和 .ocr.json 檔案。
將自定義模型定型
當您 使用已標記的數據將模型 定型時,模型會使用監督式學習,使用您提供的已標記窗體來擷取感興趣的值。 加上標籤的數據會產生效能較佳的模型,而且可以產生使用不含索引鍵之複雜表單或表單的模型。
文件智慧服務會使用預建版面配置模型 API 來學習字樣與手寫文字元素的預期大小與位置,並擷取資料表。 然後,它會使用使用者指定的標籤來瞭解檔中的索引鍵/值關聯和數據表。 建議您使用五種手動標記的相同類型形式(相同結構)來開始定型新模型。 然後,視需要新增更多已標記的數據,以改善模型精確度。 文件智慧服務可定型模型,以便使用監督式學習功能擷取索引鍵值組與資料表。
若要建立自定義模型,請從設定項目開始:
從 Studio 首頁,從 [自定義模型] 卡片中選取 [新建]。
使用 [➕ 建立專案 ] 命令來啟動新的項目組態精靈。
輸入專案詳細數據、選取 Azure 訂用帳戶和資源,以及包含數據的 Azure Blob 記憶體容器。
檢閱並提交您的設定以建立專案。
建立自定義模型時,您可能需要從文件擷取數據集合。 集合可能會顯示兩種格式的其中一種。 使用資料表做為視覺模式:
指定欄位集的動態或變數值計數(資料欄)
指定欄位集的特定值集合(資料列和/或資料欄)
建立撰寫的模型
注意
作業create compose model
僅適用於使用標籤的自訂模型。 嘗試撰寫未標記的模型會產生錯誤。
使用 建立撰寫模型 作業,您最多可以將100個定型的自定義模型指派給單一模型標識符。 使用撰寫模型分析文件時,文件智慧服務會先將您提交的表單分類,然後選擇最相符的指派模型,並傳回該模型的結果。 當傳入表單可能屬於數個範本之一時,這項作業很有用。
定型程式成功完成之後,您就可以開始建置撰寫的模型。 以下是建立和使用撰寫模型的步驟:
收集您的模型標識碼
當您使用文件智慧服務工作室來定型模型時,模型識別碼會位於專案下的 [模型] 功能表中:
撰寫您的自定義模型
選取自定義模型專案。
在專案中,選取
Models
功能表項。從產生的模型清單中,選取您想要撰寫的模型。
從左上角選擇 [ 撰寫] 按鈕 。
在彈出視窗中,將新撰寫的模型命名為 ,然後選取 [ 撰寫]。
作業完成時,新撰寫的模型會隨即出現在清單中。
模型準備就緒之後,請使用 Test 命令來驗證它與測試檔,並觀察結果。
分析檔
自訂模型分析作業要求您將呼叫中的 modelID
提供給文件智慧服務。 您應該為 modelID
應用程式中的參數提供撰寫的模型識別碼。
管理您撰寫的模型
您可以在生命週期內管理自訂模型:
- 測試並驗證新檔。
- 下載您的模型以在應用程式中使用。
- 當模型生命週期完成時,請刪除您的模型。
太棒了! 您已了解建立自訂與組成模型的步驟,並在文件智慧服務專案與應用程式中使用這些模型。
下一步
請嘗試其中一個文件智慧服務快速入門:
文件智慧服務使用進階機器學習技術來偵測及擷取文件影像中的資訊,並在結構化 JSON 輸出中傳回擷取的資料。 透過文件智慧服務,您可以訓練獨立自訂模型或合併自訂模型來建立組成模型。
自訂模型。 文件智慧服務自訂模型可讓您從業務特定表單與文件中分析及擷取資料。 自定義模型會針對不同的數據和使用案例進行定型。
撰寫的模型。 撰寫的模型是藉由取得自定義模型的集合,並將其指派給包含表單一模型來建立。 當檔提交至撰寫的模型時,服務會執行分類步驟,以判斷哪個自定義模型準確地代表呈現進行分析的窗體。
在本文中,您了解如何使用我們的文件智慧服務範例標記工具、REST API 或用戶端程式庫 SDK 來建立文件智慧服務自訂及組成模型。
範例標籤工具
請嘗試使用我們的範例卷標工具,從自定義表單擷取數據。 您需要下列資源:
Azure 訂用帳戶 -- 您可以 免費建立一個訂用帳戶
Azure 入口網站中的 Document Intelligence 執行個體。 您可以使用免費定價層 (
F0
) 來試用服務。 部署資源之後,選取 [移至資源 ] 以取得您的金鑰和端點。
在文件智慧服務 UI 中:
選取 [使用自定義] 將具有標籤的模型定型,並取得索引鍵值組。
在下一個視窗中,選取 [ 新增專案]:
建立您的模型
建置、定型及使用自定義和撰寫模型的步驟如下:
組合定型數據集
建置自定義模型一開始會建立您的定型數據集。 針對範例資料集,您會需要至少五個相同類型的已完成表單。 它們可以是不同類型的檔類型(jpg、png、pdf、tiff),並同時包含文字和手寫。 您的表單必須遵循文件智慧服務的輸入需求。
上傳訓練數據集
您必須將訓練資料上傳至 Azure Blob 儲存體容器。 如果您不知道如何使用容器建立 Azure 記憶體帳戶,請參閱 Azure 儲存體 Azure 入口網站 快速入門。 您可以使用免費定價層 (F0) 來試用服務,之後可升級至付費層以用於生產環境。
將自定義模型定型
您可以使用 加上標籤的數據集來定型模型 。 加上標籤的數據集依賴預先建置的配置 API,但會包含補充人類輸入,例如您的特定標籤和字段位置。 從您加上標籤的訓練數據至少五個相同類型的已完成表單開始。
當您使用已標記的數據定型時,模型會使用監督式學習,使用您提供的已標記窗體來擷取感興趣的值。 加上標籤的數據會產生效能較佳的模型,而且可以產生使用不含索引鍵之複雜表單或表單的模型。
文件智慧服務會使用版面配置 API 來學習字樣與手寫文字元素的預期大小與位置和擷取資料表。 然後,它會使用使用者指定的標籤來瞭解檔中的索引鍵/值關聯和數據表。 建議您在定型新模型時,使用五種手動標記的相同類型(相同結構)形式來開始使用。 視需要新增更多已標記的數據,以改善模型精確度。 文件智慧服務可定型模型,以便使用監督式學習功能擷取索引鍵值組與資料表。
[!VIDEO https://learn.microsoft.com/Shows/Docs-Azure/Azure-Form-Recognizer/player]
建立撰寫的模型
注意
模型撰寫僅適用於使用標籤型的自訂模型。 嘗試撰寫未標記的模型會產生錯誤。
使用模型撰寫作業,您最多可以將 200 個已訓練的自訂模型指派給單一模型識別碼。 當您使用組成模型識別碼呼叫分析時,文件智慧服務會先將您所提交的表單分類、選擇最相符的指派模型,然後再傳回該模型的結果。 當傳入表單可能屬於數個範本之一時,這項作業很有用。
使用文件智慧服務範例標記工具、REST API 或用戶端程式庫 SDK,遵循以下步驟來設定組成模型:
收集您的自定義模型標識碼
訓練程序成功完成之後,您的自訂模型就會獲指派模型識別碼。 您可以擷取模型標識碼,如下所示:
當您使用文件智慧服務範例標記工具 (英文) 來訓練模型時,模型識別碼會位於 [Train Result] \(訓練結果\) 視窗中:
撰寫您的自定義模型
收集對應至單一表體類型的自定義模型之後,您可以將它們撰寫成單一模型。
範例 卷標工具 可讓您快速開始定型模型,並將其撰寫成單一模型標識符。
完成定型之後,請撰寫模型,如下所示:
在左側滑軌功能表上,選取 [模型撰寫 ] 圖示 (合併箭號)。
在主視窗中,選取您想要指派給單一模型標識符的模型。 具有箭號圖示的模型已經組成模型。
從左上角選擇 [ 撰寫] 按鈕 。
在彈出視窗中,將新撰寫的模型命名為 ,然後選取 [ 撰寫]。
作業完成時,新撰寫的模型會隨即出現在清單中。
使用您的自定義或撰寫模型分析檔
自訂表單分析作業要求您將呼叫中的 modelID
提供給文件智慧服務。 您可以為 參數提供單一自定義模型識別碼或撰寫的模型標識碼 modelID
。
在工具的左窗格功能表上,選取 [分析] 圖示 (燈泡)。
選擇要分析的本機檔案或影像 URL。
選取 [ 執行分析] 按鈕。
此工具會將標籤套用至周框方塊中,且會報告每個標籤的信賴度百分比。
藉由分析不屬於定型數據集的窗體,測試新定型的模型。 根據報告的正確性,您可能想要進行進一步的定型來改善模型。 您可以繼續進一步訓練以改善 結果。
管理您的自定義模型
您可以檢視訂用帳戶下的所有自定義模型清單、擷取特定自定義模型的相關信息,以及從您的帳戶中刪除自定義模型,以在整個生命週期中管理您的自定義模型。
太棒了! 您已了解建立自訂與組成模型的步驟,並在文件智慧服務專案與應用程式中使用這些模型。
下一步
探索我們的 API 參考文件,以深入了解文件智慧服務用戶端程式庫。
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應