建置和定型自定義擷取模型
此內容適用於:v4.0 (預覽) | 舊版:v3.1 (GA)v3.0 (GA)v2.1
文件智慧服務模型至少需要五個定型文件才能開始使用。 如果您有至少五份文件,便可以開始定型自訂模型。 您可以定型自訂範本模型 (自訂表單) 或 自訂神經網路模型 (自訂文件)。 這兩個模型的定型流程均相同,本文件會逐步引導您完成任一模型的定型流程。
自訂模型輸入需求
首先,確定定型資料集遵循文件智慧服務的輸入需求。
若要得到最佳結果,請為每個文件提供一張清晰的照片或高畫質的掃描檔案。
支援的檔案格式:
模型 PDF 圖片:
JPEG/JPG、PNG、BMP、TIFF、HEIFMicrosoft Office:
Word(DOCX)、Excel(XLSX)、PowerPoint(PPTX)和 HTML參閱 ✔ ✔ ✔ 版面配置 ✔ ✔ ✔ (2024-02-29-preview, 2023-10-31-preview) 一般文件 ✔ ✔ 預建 ✔ ✔ 自訂擷取 ✔ ✔ 自訂分類 ✔ ✔ ✔ (2024-02-29-preview) 若使用 PDF 和 TIFF,最多可處理 2000 頁 (若使用免費層訂閱,則只會處理前兩頁)。
用於分析文件的檔案大小是付費 (S0) 層的 500 MB,免費 #F0 層為 4 MB。
影像維度必須介於 50 x 50 像素和 10,000 x 10,000 像素之間。
如果您的 PDF 有密碼鎖定,則必須先移除鎖定才能提交。
針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。 此尺寸在 150 點/英吋 (DPI) 時大約相當於
8
點文字。針對自訂模型定型,自訂範本模型的定型資料頁數上限為 500,而自訂神經網路模型的上限則為 50,000。
針對自訂擷取模型定型,範本模型的定型資料大小總計為 50 MB,而神經模型的大小總計則為 1G-MB。
針對自訂分類模型定型,定型資料的大小總計為
1GB
(上限為 10,000 頁)。
定型資料秘訣
請遵循下列秘訣進一步最佳化資料集,以便進行定型:
- 使用以文字為基礎的 PDF 檔,而不是以影像為基礎的檔。 掃描的 PDF 將視為影像處理。
- 針對具有輸入欄位的表單,請使用所有欄位已完成的範例。
- 使用在每個欄位中具有不同值的表單。
- 如果您的表單影像品質較低,請使用較大的數據集 (10-15 個影像)。
上傳定型資料集
收集一組表單或文件以進行定型之後,您必須將其上傳至 Azure Blob 記憶體容器。 如果您不知道如何建立具有容器的 Azure 儲存體帳戶,請遵循適用於 Azure 入口網站的 Azure 儲存體快速入門。 您可以使用免費定價層 (F0) 來試用服務,之後可升級至付費層以用於生產環境。
影片:定型自訂模型
- 收集並上傳定型數據集之後,即可定型自定義模型。 在下列影片中,我們會建立專案,並探索一些成功標記和定型模型的基本概念。
在 Document Intelligence Studio 中建立專案
Document Intelligence Studio 提供並協調完成資料集和定型模型所需的所有 API 呼叫。
首先,瀏覽至 Document Intelligence Studio。 首次使用工作室時,您必須初始化訂閱、資源群組和資源。 然後,依照自訂專案的必要條件來設定工作室,以存取您的定型資料集。
在工作室中選取 [自訂模型] 圖格,然後在自訂模型頁面上選取 [建立專案] 按鈕。
在建立專案對話方塊中,提供專案名稱、選擇性地提供描述,然後選取 [繼續]。
在工作流程的下一個步驟中,選擇或建立文件智慧服務資源,再選取 [繼續]。
重要
自訂神經網路模型僅適用於幾個區域。 如果您打算定型神經網路,請在其中一個支援的區域中選取或建立資源。
接下來,選取您上傳自訂模型定型資料集時使用的儲存體帳戶。 如果您的定型文件在容器的根目錄中,則資料夾路徑應該是空的。 如果文件位於子資料夾中,請在 [資料夾路徑] 欄位中輸入容器根目錄的相對路徑。 設定儲存體帳戶後,請選取 [繼續]。
最後,檢閱您的專案設定,然後選取 [建立專案] 以建立新的專案。 您現在應該位於標記視窗中,並看見您資料集中的檔案列出。
標記您的資料
在您的專案中,第一個工作是使用您想要擷取的欄位來標記資料集。
畫面左側會列出您上傳至儲存體的檔案,且第一個檔案已準備好供標記。
選取畫面右上方的加號按鈕➕,開始為數據集加上標籤,並建立您的第一個字段。
輸入欄位名稱。
藉由在文件中選擇單字或單字,將值指派給欄位。 在右導覽列的下拉式清單中選取欄位或欄位清單。 已標記的值位於欄位清單中的欄位名稱下方。
針對您想要為資料集標記的所有欄位重複此流程。
選取每個文件並選取要標記的文字,以標記資料集中的其餘文件。
您現在已標示資料集中的所有文件。 對應至定型資料集中每個文件的 .labels.json 和 .ocr.json 檔案,以及新的 fields.json 檔案。 系統會提交此定型資料集來定型模型。
定型您的模型
標記資料集後,您現在已準備好定型模型。 選取右上方的 [定型] 按鈕。
在定型模型對話方塊中,提供唯一的模型識別碼,並可選擇是否提供描述。 模型識別碼接受字串資料類型。
針對組建模式,選取您想要定型的模型類型。 深入了解模型類型和功能。
選取 [定型] 以起始定型流程。
範本模型會在幾分鐘內定型。 而神經網路模型可能需要 30 分鐘才能定型。
瀏覽至 [模型] 功能表,以檢視定型作業的狀態。
測試模型
模型定型完成後,您可以在模型清單頁面上選取模型以測試模型。
選取模型,然後選取 [測試] 按鈕。
選取
+ Add
按鈕以選取要測試模型的檔案。選取檔案後,選擇 [分析] 按鈕以測試模型。
模型結果會顯示在主視窗中,而擷取的欄位會列在右側導覽列中。
藉由評估每個欄位的結果,驗證您的模型。
右側導覽列也有範例程式碼,可從 API 叫用模型和 JSON 結果。
恭喜您已瞭解如何在 Document Intelligence Studio 中定型自定義模型! 您的模型已準備好與 REST API 或 SDK 搭配使用來分析文件。
適用於:v2.1。 其他版本:v3.0
當您使用文件智慧服務自訂模型時,您會將自己的定型資料提供給定型自訂模型作業,讓模型可以定型為您的產業特有表單。 請遵循本指南,了解如何收集和準備資料,有效地定型模型。
您至少需要五個相同類型的已完成表單。
如果您想要使用手動標記的定型數據,您必須從至少五個相同類型的已完成表單開始。 除了必要的資料集之外,您仍然可以使用未標記的表單。
自訂模型輸入需求
首先,確定定型資料集遵循文件智慧服務的輸入需求。
若要得到最佳結果,請為每個文件提供一張清晰的照片或高畫質的掃描檔案。
支援的檔案格式:
模型 PDF 圖片:
JPEG/JPG、PNG、BMP、TIFF、HEIFMicrosoft Office:
Word(DOCX)、Excel(XLSX)、PowerPoint(PPTX)和 HTML參閱 ✔ ✔ ✔ 版面配置 ✔ ✔ ✔ (2024-02-29-preview, 2023-10-31-preview) 一般文件 ✔ ✔ 預建 ✔ ✔ 自訂擷取 ✔ ✔ 自訂分類 ✔ ✔ ✔ (2024-02-29-preview) 若使用 PDF 和 TIFF,最多可處理 2000 頁 (若使用免費層訂閱,則只會處理前兩頁)。
用於分析文件的檔案大小是付費 (S0) 層的 500 MB,免費 #F0 層為 4 MB。
影像維度必須介於 50 x 50 像素和 10,000 x 10,000 像素之間。
如果您的 PDF 有密碼鎖定,則必須先移除鎖定才能提交。
針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。 此尺寸在 150 點/英吋 (DPI) 時大約相當於
8
點文字。針對自訂模型定型,自訂範本模型的定型資料頁數上限為 500,而自訂神經網路模型的上限則為 50,000。
針對自訂擷取模型定型,範本模型的定型資料大小總計為 50 MB,而神經模型的大小總計則為 1G-MB。
針對自訂分類模型定型,定型資料的大小總計為
1GB
(上限為 10,000 頁)。
定型資料秘訣
請遵循下列秘訣進一步最佳化資料集,以便進行定型。
- 使用以文字為基礎的 PDF 檔,而不是以影像為基礎的檔。 掃描的 PDF 將視為影像處理。
- 使用已填入已完成表單之所有欄位的範例。
- 使用在每個欄位中具有不同值的表單。
- 針對已完成的表單使用較大的數據集 (10-15 個影像)。
上傳定型資料集
收集一組檔以進行定型之後,您必須將其上傳至 Azure Blob 記憶體容器。 如果您不知道如何使用容器建立 Azure 儲存體帳戶,請遵循適用於 Azure 入口網站的 Azure 儲存體快速入門。 使用標準效能層級。
如果您想要使用手動標記的資料,請上傳對應至定型文件的 .label.json 和 .ocr.json 檔案。 您可以使用範例標記工具 (或自己的 UI) 來產生這些檔案。
在子資料夾中組織您的資料 (選擇性)
根據預設,定型自訂模型 API 只會使用位於儲存體容器根目錄的文件。 不過,如果您在 API 呼叫中指定,則可以使用子資料夾中的資料進行定型。 一般而言,定型自訂模型呼叫的主體具有下列格式,其中 <SAS URL>
是容器的共用存取簽章 URL:
{
"source":"<SAS URL>"
}
如果您將下列內容新增至要求本文,API 會使用位於子資料夾的文件進行定型。 "prefix"
欄位是選擇性欄位,而且會將定型資料集限制為路徑以指定字串開頭的檔案。 因此,"Test"
的值 (舉例來說) 會導致 API 只查看開頭為 Test 一字的檔案或資料夾。
{
"source": "<SAS URL>",
"sourceFilter": {
"prefix": "<prefix string>",
"includeSubFolders": true
},
"useLabelFile": false
}
下一步
既然您已瞭解如何建置定型數據集,請遵循快速入門來定型自定義檔智慧模型,並開始在您的窗體上使用。
另請參閱
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應