建置和定型自定義擷取模型

發行項
05/23/2024

此內容適用於：v4.0 （預覽） | 舊版：v3.1 （GA）v3.0 （GA）v2.1

文件智慧服務模型至少需要五個定型文件才能開始使用。如果您有至少五份文件，便可以開始定型自訂模型。您可以定型自訂範本模型 (自訂表單) 或自訂神經網路模型 (自訂文件)。這兩個模型的定型流程均相同，本文件會逐步引導您完成任一模型的定型流程。

自訂模型輸入需求

首先，確定定型資料集遵循文件智慧服務的輸入需求。

若要得到最佳結果，請為每個文件提供一張清晰的照片或高畫質的掃描檔案。

支援的檔案格式：

模型	PDF	圖片： JPEG/JPG、PNG、BMP、TIFF、HEIF	Microsoft Office： Word（DOCX）、Excel（XLSX）、PowerPoint（PPTX）和 HTML
參閱	✔	✔	✔
版面配置	✔	✔	✔ （2024-02-29-preview， 2023-10-31-preview）
一般文件	✔	✔
預建	✔	✔
自訂擷取	✔	✔
自訂分類	✔	✔	✔ （2024-02-29-preview）

若使用 PDF 和 TIFF，最多可處理 2000 頁 (若使用免費層訂閱，則只會處理前兩頁)。
用於分析文件的檔案大小是付費（S0）層的 500 MB，免費 #F0 層為 4 MB。
影像維度必須介於 50 x 50 像素和 10,000 x 10,000 像素之間。
如果您的 PDF 有密碼鎖定，則必須先移除鎖定才能提交。
針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。此尺寸在 150 點/英吋 (DPI) 時大約相當於 8 點文字。
針對自訂模型定型，自訂範本模型的定型資料頁數上限為 500，而自訂神經網路模型的上限則為 50,000。
- 針對自訂擷取模型定型，範本模型的定型資料大小總計為 50 MB，而神經模型的大小總計則為 1G-MB。
- 針對自訂分類模型定型，定型資料的大小總計為 1GB (上限為 10,000 頁)。

定型資料秘訣

請遵循下列秘訣進一步最佳化資料集，以便進行定型：

使用以文字為基礎的 PDF 檔，而不是以影像為基礎的檔。掃描的 PDF 將視為影像處理。
針對具有輸入欄位的表單，請使用所有欄位已完成的範例。
使用在每個欄位中具有不同值的表單。
如果您的表單影像品質較低，請使用較大的數據集（10-15 個影像）。

上傳定型資料集

收集一組表單或文件以進行定型之後，您必須將其上傳至 Azure Blob 記憶體容器。如果您不知道如何建立具有容器的 Azure 儲存體帳戶，請遵循適用於 Azure 入口網站的 Azure 儲存體快速入門。您可以使用免費定價層 (F0) 來試用服務，之後可升級至付費層以用於生產環境。

影片：定型自訂模型

收集並上傳定型數據集之後，即可定型自定義模型。在下列影片中，我們會建立專案，並探索一些成功標記和定型模型的基本概念。

在 Document Intelligence Studio 中建立專案

Document Intelligence Studio 提供並協調完成資料集和定型模型所需的所有 API 呼叫。

首先，瀏覽至 Document Intelligence Studio。首次使用工作室時，您必須初始化訂閱、資源群組和資源。然後，依照自訂專案的必要條件來設定工作室，以存取您的定型資料集。
在工作室中選取 [自訂模型] 圖格，然後在自訂模型頁面上選取 [建立專案] 按鈕。
1. 在建立專案對話方塊中，提供專案名稱、選擇性地提供描述，然後選取 [繼續]。
2. 在工作流程的下一個步驟中，選擇或建立文件智慧服務資源，再選取 [繼續]。
重要

自訂神經網路模型僅適用於幾個區域。如果您打算定型神經網路，請在其中一個支援的區域中選取或建立資源。
接下來，選取您上傳自訂模型定型資料集時使用的儲存體帳戶。如果您的定型文件在容器的根目錄中，則資料夾路徑應該是空的。如果文件位於子資料夾中，請在 [資料夾路徑] 欄位中輸入容器根目錄的相對路徑。設定儲存體帳戶後，請選取 [繼續]。
最後，檢閱您的專案設定，然後選取 [建立專案] 以建立新的專案。您現在應該位於標記視窗中，並看見您資料集中的檔案列出。

標記您的資料

在您的專案中，第一個工作是使用您想要擷取的欄位來標記資料集。

畫面左側會列出您上傳至儲存體的檔案，且第一個檔案已準備好供標記。

選取畫面右上方的加號按鈕➕，開始為數據集加上標籤，並建立您的第一個字段。
輸入欄位名稱。
藉由在文件中選擇單字或單字，將值指派給欄位。在右導覽列的下拉式清單中選取欄位或欄位清單。已標記的值位於欄位清單中的欄位名稱下方。
針對您想要為資料集標記的所有欄位重複此流程。
選取每個文件並選取要標記的文字，以標記資料集中的其餘文件。

您現在已標示資料集中的所有文件。對應至定型資料集中每個文件的 .labels.json 和 .ocr.json 檔案，以及新的 fields.json 檔案。系統會提交此定型資料集來定型模型。

定型您的模型

標記資料集後，您現在已準備好定型模型。選取右上方的 [定型] 按鈕。

在定型模型對話方塊中，提供唯一的模型識別碼，並可選擇是否提供描述。模型識別碼接受字串資料類型。
針對組建模式，選取您想要定型的模型類型。深入了解模型類型和功能。
選取 [定型] 以起始定型流程。
範本模型會在幾分鐘內定型。而神經網路模型可能需要 30 分鐘才能定型。
瀏覽至 [模型] 功能表，以檢視定型作業的狀態。

測試模型

模型定型完成後，您可以在模型清單頁面上選取模型以測試模型。

選取模型，然後選取 [測試] 按鈕。
選取 + Add 按鈕以選取要測試模型的檔案。
選取檔案後，選擇 [分析] 按鈕以測試模型。
模型結果會顯示在主視窗中，而擷取的欄位會列在右側導覽列中。
藉由評估每個欄位的結果，驗證您的模型。
右側導覽列也有範例程式碼，可從 API 叫用模型和 JSON 結果。

恭喜您已瞭解如何在 Document Intelligence Studio 中定型自定義模型！您的模型已準備好與 REST API 或 SDK 搭配使用來分析文件。

適用於：v2.1。 其他版本：v3.0

當您使用文件智慧服務自訂模型時，您會將自己的定型資料提供給定型自訂模型作業，讓模型可以定型為您的產業特有表單。請遵循本指南，了解如何收集和準備資料，有效地定型模型。

您至少需要五個相同類型的已完成表單。

如果您想要使用手動標記的定型數據，您必須從至少五個相同類型的已完成表單開始。除了必要的資料集之外，您仍然可以使用未標記的表單。

自訂模型輸入需求

首先，確定定型資料集遵循文件智慧服務的輸入需求。

若要得到最佳結果，請為每個文件提供一張清晰的照片或高畫質的掃描檔案。

支援的檔案格式：

模型	PDF	圖片： JPEG/JPG、PNG、BMP、TIFF、HEIF	Microsoft Office： Word（DOCX）、Excel（XLSX）、PowerPoint（PPTX）和 HTML
參閱	✔	✔	✔
版面配置	✔	✔	✔ （2024-02-29-preview， 2023-10-31-preview）
一般文件	✔	✔
預建	✔	✔
自訂擷取	✔	✔
自訂分類	✔	✔	✔ （2024-02-29-preview）

若使用 PDF 和 TIFF，最多可處理 2000 頁 (若使用免費層訂閱，則只會處理前兩頁)。
用於分析文件的檔案大小是付費（S0）層的 500 MB，免費 #F0 層為 4 MB。
影像維度必須介於 50 x 50 像素和 10,000 x 10,000 像素之間。
如果您的 PDF 有密碼鎖定，則必須先移除鎖定才能提交。
針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。此尺寸在 150 點/英吋 (DPI) 時大約相當於 8 點文字。
針對自訂模型定型，自訂範本模型的定型資料頁數上限為 500，而自訂神經網路模型的上限則為 50,000。
- 針對自訂擷取模型定型，範本模型的定型資料大小總計為 50 MB，而神經模型的大小總計則為 1G-MB。
- 針對自訂分類模型定型，定型資料的大小總計為 1GB (上限為 10,000 頁)。

定型資料秘訣

請遵循下列秘訣進一步最佳化資料集，以便進行定型。

使用以文字為基礎的 PDF 檔，而不是以影像為基礎的檔。掃描的 PDF 將視為影像處理。
使用已填入已完成表單之所有欄位的範例。
使用在每個欄位中具有不同值的表單。
針對已完成的表單使用較大的數據集（10-15 個影像）。

上傳定型資料集

收集一組檔以進行定型之後，您必須將其上傳至 Azure Blob 記憶體容器。如果您不知道如何使用容器建立 Azure 儲存體帳戶，請遵循適用於 Azure 入口網站的 Azure 儲存體快速入門。使用標準效能層級。

如果您想要使用手動標記的資料，請上傳對應至定型文件的 .label.json 和 .ocr.json 檔案。您可以使用範例標記工具 (或自己的 UI) 來產生這些檔案。

在子資料夾中組織您的資料 (選擇性)

根據預設，定型自訂模型 API 只會使用位於儲存體容器根目錄的文件。不過，如果您在 API 呼叫中指定，則可以使用子資料夾中的資料進行定型。一般而言，定型自訂模型呼叫的主體具有下列格式，其中 <SAS URL> 是容器的共用存取簽章 URL：

{
  "source":"<SAS URL>"
}

如果您將下列內容新增至要求本文，API 會使用位於子資料夾的文件進行定型。 "prefix" 欄位是選擇性欄位，而且會將定型資料集限制為路徑以指定字串開頭的檔案。因此，"Test" 的值 (舉例來說) 會導致 API 只查看開頭為 Test 一字的檔案或資料夾。

{
  "source": "<SAS URL>",
  "sourceFilter": {
    "prefix": "<prefix string>",
    "includeSubFolders": true
  },
  "useLabelFile": false
}

下一步

既然您已瞭解如何建置定型數據集，請遵循快速入門來定型自定義檔智慧模型，並開始在您的窗體上使用。

了解自訂模型類型

了解自訂模型的精確度和信賴度

使用範例標記工具搭配標籤進行定型

共用方式為

建置和定型自定義擷取模型

自訂模型輸入需求

定型資料秘訣

上傳定型資料集

影片：定型自訂模型

在 Document Intelligence Studio 中建立專案

標記您的資料

定型您的模型

測試模型

自訂模型輸入需求

定型資料秘訣

上傳定型資料集

在子資料夾中組織您的資料 (選擇性)

下一步

另請參閱

意見反應

意見反應

其他資源