建置和定型自訂擷取模型

文章
10/16/2024

此內容適用於： v4.0 (預覽版) | 較舊版本： v3.1 (GA) v3.0 (GA) v2.1

重要

自訂生成式模型定型行為與自訂範本和類神經模型定型不同。下列文件僅涵蓋自訂範本和類神經網路模型的定型。如需自訂生成式模型的指導，請參閱自訂生成式模型

文件智慧服務自訂模型需要數個定型文件才能開始使用。如果您有至少五份文件，便可以開始定型自訂模型。您可以定型自訂範本模型 (自訂表單)，或自訂神經網路模型 (自訂文件)，或自訂範本模型 (自訂表單)。本文件會逐步引導您完成定型自訂模型的流程。

自訂模型輸入需求

首先，確定定型資料集遵循文件智慧服務的輸入需求。

支援的檔案格式：

模型	PDF	影像： `JPEG/JPG`、`PNG`、`BMP`、`TIFF`、`HEIF`	Microsoft Office： Word (`DOCX`)、Excel (`XLSX`)、PowerPoint (`PPTX`)、HTML
參閱	✔	✔	✔
版面配置	✔	✔	✔ (2024-07-31-preview、2024-02-29-preview、2023-10-31-preview)
一般文件	✔	✔
預建	✔	✔
自訂擷取	✔	✔
自訂分類	✔	✔	✔ (2024-07-31-preview、2024-02-29-preview)

若要得到最佳結果，請為每個文件提供一張清晰的照片或高畫質的掃描檔案。
若使用 PDF 和 TIFF，最多可處理 2,000 頁 (若使用免費層訂閱，則只會處理前兩頁)。
付費 (S0) 層分析文件的檔案大小為 500 MB，免費 (F0) 層則為 4 MB。
影像維度必須介於 50 像素 x 50 像素和 10,000 像素 x 10,000 像素之間。
如果您的 PDF 有密碼鎖定，則必須先移除鎖定才能提交。
針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。此維度在 150 點/英吋 (DPI) 時大約相當於 8 點文字。
針對自訂模型定型，自訂範本模型的定型資料頁數上限為 500，而自訂神經網路模型的上限則為 50,000。
- 對於自訂擷取模型定型，範本模型的定型資料大小總計為 50 MB，而神經模型的大小總計則為 1 GB。
- 針對自訂分類模型定型，定型資料的大小總計為 1 GB (上限為 10,000 頁)。對於 2024-07-31-preview 和更新版本，定型資料的大小總計為 2 GB，上限為 10,000 頁。

定型資料秘訣

請遵循下列秘訣進一步最佳化資料集，以便進行定型：

使用以文字為基礎的 PDF 文件，而非以影像為基礎的文件。掃描的 PDF 將視為影像處理。
針對具有輸入欄位的表單，請使用已完成所有欄位的範例。
使用在每個欄位中具有不同值的表單。
如果您的表單影像品質較低，請使用較大的資料集 (10-15 個影像)。

上傳定型資料集

收集到一組定型用的表單或文件後，您必須將其上傳至 Azure Blob 儲存體容器。如果您不知道如何建立具有容器的 Azure 儲存體帳戶，請遵循適用於 Azure 入口網站的 Azure 儲存體快速入門。您可以使用免費定價層 (F0) 來試用服務，之後可升級至付費層以用於生產環境。

影片：定型自訂模型

收集並上傳定型資料集之後，您就可以開始定型自訂模型。在下列影片中，我們會建立專案，並探索一些成功標記和定型模型的基本概念。

在 Document Intelligence Studio 中建立專案

Document Intelligence Studio 提供並協調完成資料集和定型模型所需的所有 API 呼叫。

首先，瀏覽至 Document Intelligence Studio。首次使用工作室時，您必須初始化訂閱、資源群組和資源。然後，依照自訂專案的必要條件來設定工作室，以存取您的定型資料集。
在工作室中選取自訂擷取模型圖格，然後選取建立專案按鈕。
1. 在create project對話方塊中，提供專案名稱、提供描述 (選擇性)，然後選取繼續。
2. 在工作流程的下一個步驟中，選擇或建立文件智慧服務資源，再選取 [繼續]。
重要

自訂神經網路模型僅適用於幾個區域。如果您打算定型神經網路，請在其中一個支援的區域中選取或建立資源。
接下來，選取您上傳自訂模型定型資料集時使用的儲存體帳戶。如果您的定型文件在容器的根目錄中，則資料夾路徑應該是空的。如果文件位於子資料夾中，請在 [資料夾路徑] 欄位中輸入容器根目錄的相對路徑。設定儲存體帳戶後，請選取 [繼續]。
最後，檢閱您的專案設定，然後選取 [建立專案] 以建立新的專案。您現在應該位於標記視窗中，並看見您資料集中的檔案列出。

標記您的資料

在您的專案中，第一個工作是使用您想要擷取的欄位來標記資料集。

畫面左側會列出您上傳至儲存體的檔案，且第一個檔案已準備好供標記。

開始標記資料集並建立第一個欄位，方法是選取畫面右上方的加號 (➕) 按鈕。
輸入欄位名稱。
藉由在文件中選擇一或多個單字，將值指派給欄位。在下拉式清單中或右側導覽列上的欄位清單中選取欄位。已標記的值位於欄位清單中的欄位名稱下方。
針對您想要為資料集標記的所有欄位重複此流程。
選取每個文件並選取要標記的文字，以標記資料集中的其餘文件。

您現在已標示資料集中的所有文件。對應至定型資料集中每個文件的 .labels.json 和 .ocr.json 檔案，以及新的 fields.json 檔案。系統會提交此定型資料集來定型模型。

定型您的模型

標記資料集後，您現在已準備好定型模型。選取右上方的 [定型] 按鈕。

在定型模型對話方塊中，提供唯一的模型識別碼，並可選擇是否提供描述。模型識別碼接受字串資料類型。
針對組建模式，選取您想要定型的模型類型。深入了解模型類型和功能。
選取 [定型] 以起始定型流程。
範本模型會在幾分鐘內定型。而神經網路模型可能需要 30 分鐘才能定型。
瀏覽至 [模型] 功能表，以檢視定型作業的狀態。

測試模型

模型定型完成後，您可以在模型清單頁面上選取模型以測試模型。

選取模型，然後選取 [測試] 按鈕。
選取 + Add 按鈕以選取要測試模型的檔案。
選取檔案後，選擇 [分析] 按鈕以測試模型。
模型結果會顯示在主視窗中，而擷取的欄位會列在右側導覽列中。
藉由評估每個欄位的結果，驗證您的模型。
右側導覽列也有範例程式碼，可從 API 叫用模型和 JSON 結果。

恭喜，您已了解如何在文件智慧服務工作室中定型自訂模型了！您的模型已準備好與 REST API 或 SDK 搭配使用來分析文件。

適用於： v2.1. 其他版本： v3.0

當您使用文件智慧服務自訂模型時，您會將自己的定型資料提供給定型自訂模型作業，讓模型可以定型為您的產業特有表單。請遵循本指南，了解如何收集和準備資料，有效地定型模型。

您至少需要五個相同類型的已完成表單。

如果您想要使用手動標記的定型資料，您必須從至少五個相同類型的已完成表單開始。除了必要的資料集之外，您仍然可以使用未標記的表單。

自訂模型輸入需求

首先，確定定型資料集遵循文件智慧服務的輸入需求。

支援的檔案格式：

模型	PDF	影像： `JPEG/JPG`、`PNG`、`BMP`、`TIFF`、`HEIF`	Microsoft Office： Word (`DOCX`)、Excel (`XLSX`)、PowerPoint (`PPTX`)、HTML
參閱	✔	✔	✔
版面配置	✔	✔	✔ (2024-07-31-preview、2024-02-29-preview、2023-10-31-preview)
一般文件	✔	✔
預建	✔	✔
自訂擷取	✔	✔
自訂分類	✔	✔	✔ (2024-07-31-preview、2024-02-29-preview)

若要得到最佳結果，請為每個文件提供一張清晰的照片或高畫質的掃描檔案。
若使用 PDF 和 TIFF，最多可處理 2,000 頁 (若使用免費層訂閱，則只會處理前兩頁)。
付費 (S0) 層分析文件的檔案大小為 500 MB，免費 (F0) 層則為 4 MB。
影像維度必須介於 50 像素 x 50 像素和 10,000 像素 x 10,000 像素之間。
如果您的 PDF 有密碼鎖定，則必須先移除鎖定才能提交。
針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。此維度在 150 點/英吋 (DPI) 時大約相當於 8 點文字。
針對自訂模型定型，自訂範本模型的定型資料頁數上限為 500，而自訂神經網路模型的上限則為 50,000。
- 對於自訂擷取模型定型，範本模型的定型資料大小總計為 50 MB，而神經模型的大小總計則為 1 GB。
- 針對自訂分類模型定型，定型資料的大小總計為 1 GB (上限為 10,000 頁)。對於 2024-07-31-preview 和更新版本，定型資料的大小總計為 2 GB，上限為 10,000 頁。

定型資料秘訣

請遵循下列秘訣進一步最佳化資料集，以便進行定型。

使用以文字為基礎的 PDF 文件，而非以影像為基礎的文件。掃描的 PDF 將視為影像處理。
針對已完成的表單，請使用已填入所有欄位的範例。
使用在每個欄位中具有不同值的表單。
針對已完成的表單，請使用較大的資料集 (10-15 個影像)。

上傳定型資料集

收集到一組定型用的文件後，您必須將其上傳至 Azure Blob 儲存體容器。如果您不知道如何使用容器建立 Azure 儲存體帳戶，請遵循適用於 Azure 入口網站的 Azure 儲存體快速入門。使用標準效能層級。

如果您想要使用手動標記的資料，請上傳對應至定型文件的 .label.json 和 .ocr.json 檔案。您可以使用範例標記工具 (或自己的 UI) 來產生這些檔案。

在子資料夾中組織您的資料 (選擇性)

根據預設，定型自訂模型 API 只會使用位於儲存體容器根目錄的文件。不過，如果您在 API 呼叫中指定，則可以使用子資料夾中的資料進行定型。一般而言，定型自訂模型呼叫的主體具有下列格式，其中 <SAS URL> 是容器的共用存取簽章 URL：

{
  "source":"<SAS URL>"
}

如果您將下列內容新增至要求本文，API 會使用位於子資料夾的文件進行定型。 "prefix" 欄位是選擇性欄位，而且會將定型資料集限制為路徑以指定字串開頭的檔案。因此，"Test" 的值 (舉例來說) 會導致 API 只查看開頭為 Test 一字的檔案或資料夾。

{
  "source": "<SAS URL>",
  "sourceFilter": {
    "prefix": "<prefix string>",
    "includeSubFolders": true
  },
  "useLabelFile": false
}

下一步

既然您已了解如何建置定型資料集，請遵循快速入門來定型自訂文件智慧服務模型，並開始在您的表單上使用該模型。

了解自訂模型類型

了解自訂模型的精確度和信賴度

使用範例標記工具搭配標籤進行定型

分享方式：

建置和定型自訂擷取模型

自訂模型輸入需求

定型資料秘訣

上傳定型資料集

影片：定型自訂模型

在 Document Intelligence Studio 中建立專案

標記您的資料

定型您的模型

測試模型

自訂模型輸入需求

定型資料秘訣

上傳定型資料集

在子資料夾中組織您的資料 (選擇性)

下一步

另請參閱

意見反映

更多資源