建置和定型自訂擷取模型
此內容適用於: v4.0 (預覽版) | 較舊版本: v3.1 (GA) v3.0 (GA) v2.1
重要
自訂生成式模型定型行為與自訂範本和類神經模型定型不同。 下列文件僅涵蓋自訂範本和類神經網路模型的定型。 如需自訂生成式模型的指導,請參閱自訂生成式模型
文件智慧服務自訂模型需要數個定型文件才能開始使用。 如果您有至少五份文件,便可以開始定型自訂模型。 您可以定型自訂範本模型 (自訂表單),或自訂神經網路模型 (自訂文件),或自訂範本模型 (自訂表單)。 本文件會逐步引導您完成定型自訂模型的流程。
自訂模型輸入需求
首先,確定定型資料集遵循文件智慧服務的輸入需求。
支援的檔案格式:
模型 PDF 影像: JPEG/JPG
、PNG
、BMP
、TIFF
、HEIF
Microsoft Office:
Word (DOCX
)、Excel (XLSX
)、PowerPoint (PPTX
)、HTML參閱 ✔ ✔ ✔ 版面配置 ✔ ✔ ✔ (2024-07-31-preview、2024-02-29-preview、2023-10-31-preview) 一般文件 ✔ ✔ 預建 ✔ ✔ 自訂擷取 ✔ ✔ 自訂分類 ✔ ✔ ✔ (2024-07-31-preview、2024-02-29-preview) 若要得到最佳結果,請為每個文件提供一張清晰的照片或高畫質的掃描檔案。
若使用 PDF 和 TIFF,最多可處理 2,000 頁 (若使用免費層訂閱,則只會處理前兩頁)。
付費 (S0) 層分析文件的檔案大小為 500 MB,免費 (F0) 層則為
4
MB。影像維度必須介於 50 像素 x 50 像素和 10,000 像素 x 10,000 像素之間。
如果您的 PDF 有密碼鎖定,則必須先移除鎖定才能提交。
針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。 此維度在 150 點/英吋 (DPI) 時大約相當於
8
點文字。針對自訂模型定型,自訂範本模型的定型資料頁數上限為 500,而自訂神經網路模型的上限則為 50,000。
對於自訂擷取模型定型,範本模型的定型資料大小總計為 50 MB,而神經模型的大小總計則為
1
GB。針對自訂分類模型定型,定型資料的大小總計為
1
GB (上限為 10,000 頁)。 對於 2024-07-31-preview 和更新版本,定型資料的大小總計為2
GB,上限為 10,000 頁。
定型資料秘訣
請遵循下列秘訣進一步最佳化資料集,以便進行定型:
- 使用以文字為基礎的 PDF 文件,而非以影像為基礎的文件。 掃描的 PDF 將視為影像處理。
- 針對具有輸入欄位的表單,請使用已完成所有欄位的範例。
- 使用在每個欄位中具有不同值的表單。
- 如果您的表單影像品質較低,請使用較大的資料集 (10-15 個影像)。
上傳定型資料集
收集到一組定型用的表單或文件後,您必須將其上傳至 Azure Blob 儲存體容器。 如果您不知道如何建立具有容器的 Azure 儲存體帳戶,請遵循適用於 Azure 入口網站的 Azure 儲存體快速入門。 您可以使用免費定價層 (F0) 來試用服務,之後可升級至付費層以用於生產環境。
影片:定型自訂模型
- 收集並上傳定型資料集之後,您就可以開始定型自訂模型。 在下列影片中,我們會建立專案,並探索一些成功標記和定型模型的基本概念。
在 Document Intelligence Studio 中建立專案
Document Intelligence Studio 提供並協調完成資料集和定型模型所需的所有 API 呼叫。
首先,瀏覽至 Document Intelligence Studio。 首次使用工作室時,您必須初始化訂閱、資源群組和資源。 然後,依照自訂專案的必要條件來設定工作室,以存取您的定型資料集。
在工作室中選取自訂擷取模型圖格,然後選取建立專案按鈕。
在
create project
對話方塊中,提供專案名稱、提供描述 (選擇性),然後選取繼續。在工作流程的下一個步驟中,選擇或建立文件智慧服務資源,再選取 [繼續]。
重要
自訂神經網路模型僅適用於幾個區域。 如果您打算定型神經網路,請在其中一個支援的區域中選取或建立資源。
接下來,選取您上傳自訂模型定型資料集時使用的儲存體帳戶。 如果您的定型文件在容器的根目錄中,則資料夾路徑應該是空的。 如果文件位於子資料夾中,請在 [資料夾路徑] 欄位中輸入容器根目錄的相對路徑。 設定儲存體帳戶後,請選取 [繼續]。
最後,檢閱您的專案設定,然後選取 [建立專案] 以建立新的專案。 您現在應該位於標記視窗中,並看見您資料集中的檔案列出。
標記您的資料
在您的專案中,第一個工作是使用您想要擷取的欄位來標記資料集。
畫面左側會列出您上傳至儲存體的檔案,且第一個檔案已準備好供標記。
開始標記資料集並建立第一個欄位,方法是選取畫面右上方的加號 (➕) 按鈕。
輸入欄位名稱。
藉由在文件中選擇一或多個單字,將值指派給欄位。 在下拉式清單中或右側導覽列上的欄位清單中選取欄位。 已標記的值位於欄位清單中的欄位名稱下方。
針對您想要為資料集標記的所有欄位重複此流程。
選取每個文件並選取要標記的文字,以標記資料集中的其餘文件。
您現在已標示資料集中的所有文件。 對應至定型資料集中每個文件的 .labels.json 和 .ocr.json 檔案,以及新的 fields.json 檔案。 系統會提交此定型資料集來定型模型。
定型您的模型
標記資料集後,您現在已準備好定型模型。 選取右上方的 [定型] 按鈕。
在定型模型對話方塊中,提供唯一的模型識別碼,並可選擇是否提供描述。 模型識別碼接受字串資料類型。
針對組建模式,選取您想要定型的模型類型。 深入了解模型類型和功能。
選取 [定型] 以起始定型流程。
範本模型會在幾分鐘內定型。 而神經網路模型可能需要 30 分鐘才能定型。
瀏覽至 [模型] 功能表,以檢視定型作業的狀態。
測試模型
模型定型完成後,您可以在模型清單頁面上選取模型以測試模型。
選取模型,然後選取 [測試] 按鈕。
選取
+ Add
按鈕以選取要測試模型的檔案。選取檔案後,選擇 [分析] 按鈕以測試模型。
模型結果會顯示在主視窗中,而擷取的欄位會列在右側導覽列中。
藉由評估每個欄位的結果,驗證您的模型。
右側導覽列也有範例程式碼,可從 API 叫用模型和 JSON 結果。
恭喜,您已了解如何在文件智慧服務工作室中定型自訂模型了! 您的模型已準備好與 REST API 或 SDK 搭配使用來分析文件。
適用於: v2.1. 其他版本: v3.0
當您使用文件智慧服務自訂模型時,您會將自己的定型資料提供給定型自訂模型作業,讓模型可以定型為您的產業特有表單。 請遵循本指南,了解如何收集和準備資料,有效地定型模型。
您至少需要五個相同類型的已完成表單。
如果您想要使用手動標記的定型資料,您必須從至少五個相同類型的已完成表單開始。 除了必要的資料集之外,您仍然可以使用未標記的表單。
自訂模型輸入需求
首先,確定定型資料集遵循文件智慧服務的輸入需求。
支援的檔案格式:
模型 PDF 影像: JPEG/JPG
、PNG
、BMP
、TIFF
、HEIF
Microsoft Office:
Word (DOCX
)、Excel (XLSX
)、PowerPoint (PPTX
)、HTML參閱 ✔ ✔ ✔ 版面配置 ✔ ✔ ✔ (2024-07-31-preview、2024-02-29-preview、2023-10-31-preview) 一般文件 ✔ ✔ 預建 ✔ ✔ 自訂擷取 ✔ ✔ 自訂分類 ✔ ✔ ✔ (2024-07-31-preview、2024-02-29-preview) 若要得到最佳結果,請為每個文件提供一張清晰的照片或高畫質的掃描檔案。
若使用 PDF 和 TIFF,最多可處理 2,000 頁 (若使用免費層訂閱,則只會處理前兩頁)。
付費 (S0) 層分析文件的檔案大小為 500 MB,免費 (F0) 層則為
4
MB。影像維度必須介於 50 像素 x 50 像素和 10,000 像素 x 10,000 像素之間。
如果您的 PDF 有密碼鎖定,則必須先移除鎖定才能提交。
針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。 此維度在 150 點/英吋 (DPI) 時大約相當於
8
點文字。針對自訂模型定型,自訂範本模型的定型資料頁數上限為 500,而自訂神經網路模型的上限則為 50,000。
對於自訂擷取模型定型,範本模型的定型資料大小總計為 50 MB,而神經模型的大小總計則為
1
GB。針對自訂分類模型定型,定型資料的大小總計為
1
GB (上限為 10,000 頁)。 對於 2024-07-31-preview 和更新版本,定型資料的大小總計為2
GB,上限為 10,000 頁。
定型資料秘訣
請遵循下列秘訣進一步最佳化資料集,以便進行定型。
- 使用以文字為基礎的 PDF 文件,而非以影像為基礎的文件。 掃描的 PDF 將視為影像處理。
- 針對已完成的表單,請使用已填入所有欄位的範例。
- 使用在每個欄位中具有不同值的表單。
- 針對已完成的表單,請使用較大的資料集 (10-15 個影像)。
上傳定型資料集
收集到一組定型用的文件後,您必須將其上傳至 Azure Blob 儲存體容器。 如果您不知道如何使用容器建立 Azure 儲存體帳戶,請遵循適用於 Azure 入口網站的 Azure 儲存體快速入門。 使用標準效能層級。
如果您想要使用手動標記的資料,請上傳對應至定型文件的 .label.json 和 .ocr.json 檔案。 您可以使用範例標記工具 (或自己的 UI) 來產生這些檔案。
在子資料夾中組織您的資料 (選擇性)
根據預設,定型自訂模型 API 只會使用位於儲存體容器根目錄的文件。 不過,如果您在 API 呼叫中指定,則可以使用子資料夾中的資料進行定型。 一般而言,定型自訂模型呼叫的主體具有下列格式,其中 <SAS URL>
是容器的共用存取簽章 URL:
{
"source":"<SAS URL>"
}
如果您將下列內容新增至要求本文,API 會使用位於子資料夾的文件進行定型。 "prefix"
欄位是選擇性欄位,而且會將定型資料集限制為路徑以指定字串開頭的檔案。 因此,"Test"
的值 (舉例來說) 會導致 API 只查看開頭為 Test 一字的檔案或資料夾。
{
"source": "<SAS URL>",
"sourceFilter": {
"prefix": "<prefix string>",
"includeSubFolders": true
},
"useLabelFile": false
}
下一步
既然您已了解如何建置定型資料集,請遵循快速入門來定型自訂文件智慧服務模型,並開始在您的表單上使用該模型。