分享方式:


建置和定型自訂擷取模型

此內容適用於:勾選記號 v4.0 (預覽版) | 較舊版本: blue-checkmark v3.1 (GA) blue-checkmark v3.0 (GA) blue-checkmark v2.1

重要

自訂生成式模型定型行為與自訂範本和類神經模型定型不同。 下列文件僅涵蓋自訂範本和類神經網路模型的定型。 如需自訂生成式模型的指導,請參閱自訂生成式模型

文件智慧服務自訂模型需要數個定型文件才能開始使用。 如果您有至少五份文件,便可以開始定型自訂模型。 您可以定型自訂範本模型 (自訂表單),或自訂神經網路模型 (自訂文件),或自訂範本模型 (自訂表單)。 本文件會逐步引導您完成定型自訂模型的流程。

自訂模型輸入需求

首先,確定定型資料集遵循文件智慧服務的輸入需求。

  • 支援的檔案格式:

    模型 PDF 影像:
    JPEG/JPGPNGBMPTIFFHEIF
    Microsoft Office:
    Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX)、HTML
    參閱
    版面配置 ✔ (2024-07-31-preview、2024-02-29-preview、2023-10-31-preview)
    一般文件
    預建
    自訂擷取
    自訂分類 ✔ (2024-07-31-preview、2024-02-29-preview)
  • 若要得到最佳結果,請為每個文件提供一張清晰的照片或高畫質的掃描檔案。

  • 若使用 PDF 和 TIFF,最多可處理 2,000 頁 (若使用免費層訂閱,則只會處理前兩頁)。

  • 付費 (S0) 層分析文件的檔案大小為 500 MB,免費 (F0) 層則為 4 MB。

  • 影像維度必須介於 50 像素 x 50 像素和 10,000 像素 x 10,000 像素之間。

  • 如果您的 PDF 有密碼鎖定,則必須先移除鎖定才能提交。

  • 針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。 此維度在 150 點/英吋 (DPI) 時大約相當於 8 點文字。

  • 針對自訂模型定型,自訂範本模型的定型資料頁數上限為 500,而自訂神經網路模型的上限則為 50,000。

    • 對於自訂擷取模型定型,範本模型的定型資料大小總計為 50 MB,而神經模型的大小總計則為 1 GB。

    • 針對自訂分類模型定型,定型資料的大小總計為 1 GB (上限為 10,000 頁)。 對於 2024-07-31-preview 和更新版本,定型資料的大小總計為 2 GB,上限為 10,000 頁。

定型資料秘訣

請遵循下列秘訣進一步最佳化資料集,以便進行定型:

  • 使用以文字為基礎的 PDF 文件,而非以影像為基礎的文件。 掃描的 PDF 將視為影像處理。
  • 針對具有輸入欄位的表單,請使用已完成所有欄位的範例。
  • 使用在每個欄位中具有不同值的表單。
  • 如果您的表單影像品質較低,請使用較大的資料集 (10-15 個影像)。

上傳定型資料集

收集到一組定型用的表單或文件後,您必須將其上傳至 Azure Blob 儲存體容器。 如果您不知道如何建立具有容器的 Azure 儲存體帳戶,請遵循適用於 Azure 入口網站的 Azure 儲存體快速入門。 您可以使用免費定價層 (F0) 來試用服務,之後可升級至付費層以用於生產環境。

影片:定型自訂模型

  • 收集並上傳定型資料集之後,您就可以開始定型自訂模型。 在下列影片中,我們會建立專案,並探索一些成功標記和定型模型的基本概念。

在 Document Intelligence Studio 中建立專案

Document Intelligence Studio 提供並協調完成資料集和定型模型所需的所有 API 呼叫。

  1. 首先,瀏覽至 Document Intelligence Studio。 首次使用工作室時,您必須初始化訂閱、資源群組和資源。 然後,依照自訂專案的必要條件來設定工作室,以存取您的定型資料集。

  2. 在工作室中選取自訂擷取模型圖格,然後選取建立專案按鈕。

    在 Document Intelligence Studio 中建立專案的螢幕擷取畫面。

    1. create project對話方塊中,提供專案名稱、提供描述 (選擇性),然後選取繼續。

    2. 在工作流程的下一個步驟中,選擇或建立文件智慧服務資源,再選取 [繼續]。

    重要

    自訂神經網路模型僅適用於幾個區域。 如果您打算定型神經網路,請在其中一個支援的區域中選取或建立資源。

    選取文件智慧服務來源的螢幕擷取畫面。

  3. 接下來,選取您上傳自訂模型定型資料集時使用的儲存體帳戶。 如果您的定型文件在容器的根目錄中,則資料夾路徑應該是空的。 如果文件位於子資料夾中,請在 [資料夾路徑] 欄位中輸入容器根目錄的相對路徑。 設定儲存體帳戶後,請選取 [繼續]。

    選取儲存體帳戶的螢幕擷取畫面。

  4. 最後,檢閱您的專案設定,然後選取 [建立專案] 以建立新的專案。 您現在應該位於標記視窗中,並看見您資料集中的檔案列出。

標記您的資料

在您的專案中,第一個工作是使用您想要擷取的欄位來標記資料集。

畫面左側會列出您上傳至儲存體的檔案,且第一個檔案已準備好供標記。

  1. 開始標記資料集並建立第一個欄位,方法是選取畫面右上方的加號 (➕) 按鈕。

    建立標籤的螢幕擷取畫面。

  2. 輸入欄位名稱。

  3. 藉由在文件中選擇一或多個單字,將值指派給欄位。 在下拉式清單中或右側導覽列上的欄位清單中選取欄位。 已標記的值位於欄位清單中的欄位名稱下方。

  4. 針對您想要為資料集標記的所有欄位重複此流程。

  5. 選取每個文件並選取要標記的文字,以標記資料集中的其餘文件。

您現在已標示資料集中的所有文件。 對應至定型資料集中每個文件的 .labels.json.ocr.json 檔案,以及新的 fields.json 檔案。 系統會提交此定型資料集來定型模型。

定型您的模型

標記資料集後,您現在已準備好定型模型。 選取右上方的 [定型] 按鈕。

  1. 在定型模型對話方塊中,提供唯一的模型識別碼,並可選擇是否提供描述。 模型識別碼接受字串資料類型。

  2. 針對組建模式,選取您想要定型的模型類型。 深入了解模型類型和功能

    定型模型對話方塊的螢幕擷取畫面。

  3. 選取 [定型] 以起始定型流程。

  4. 範本模型會在幾分鐘內定型。 而神經網路模型可能需要 30 分鐘才能定型。

  5. 瀏覽至 [模型] 功能表,以檢視定型作業的狀態。

測試模型

模型定型完成後,您可以在模型清單頁面上選取模型以測試模型。

  1. 選取模型,然後選取 [測試] 按鈕。

  2. 選取 + Add 按鈕以選取要測試模型的檔案。

  3. 選取檔案後,選擇 [分析] 按鈕以測試模型。

  4. 模型結果會顯示在主視窗中,而擷取的欄位會列在右側導覽列中。

  5. 藉由評估每個欄位的結果,驗證您的模型。

  6. 右側導覽列也有範例程式碼,可從 API 叫用模型和 JSON 結果。

恭喜,您已了解如何在文件智慧服務工作室中定型自訂模型了! 您的模型已準備好與 REST API 或 SDK 搭配使用來分析文件。

適用於: 文件智慧服務 v2.1 核取記號 v2.1. 其他版本: v3.0

當您使用文件智慧服務自訂模型時,您會將自己的定型資料提供給定型自訂模型作業,讓模型可以定型為您的產業特有表單。 請遵循本指南,了解如何收集和準備資料,有效地定型模型。

您至少需要五個相同類型的已完成表單。

如果您想要使用手動標記的定型資料,您必須從至少五個相同類型的已完成表單開始。 除了必要的資料集之外,您仍然可以使用未標記的表單。

自訂模型輸入需求

首先,確定定型資料集遵循文件智慧服務的輸入需求。

  • 支援的檔案格式:

    模型 PDF 影像:
    JPEG/JPGPNGBMPTIFFHEIF
    Microsoft Office:
    Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX)、HTML
    參閱
    版面配置 ✔ (2024-07-31-preview、2024-02-29-preview、2023-10-31-preview)
    一般文件
    預建
    自訂擷取
    自訂分類 ✔ (2024-07-31-preview、2024-02-29-preview)
  • 若要得到最佳結果,請為每個文件提供一張清晰的照片或高畫質的掃描檔案。

  • 若使用 PDF 和 TIFF,最多可處理 2,000 頁 (若使用免費層訂閱,則只會處理前兩頁)。

  • 付費 (S0) 層分析文件的檔案大小為 500 MB,免費 (F0) 層則為 4 MB。

  • 影像維度必須介於 50 像素 x 50 像素和 10,000 像素 x 10,000 像素之間。

  • 如果您的 PDF 有密碼鎖定,則必須先移除鎖定才能提交。

  • 針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。 此維度在 150 點/英吋 (DPI) 時大約相當於 8 點文字。

  • 針對自訂模型定型,自訂範本模型的定型資料頁數上限為 500,而自訂神經網路模型的上限則為 50,000。

    • 對於自訂擷取模型定型,範本模型的定型資料大小總計為 50 MB,而神經模型的大小總計則為 1 GB。

    • 針對自訂分類模型定型,定型資料的大小總計為 1 GB (上限為 10,000 頁)。 對於 2024-07-31-preview 和更新版本,定型資料的大小總計為 2 GB,上限為 10,000 頁。

定型資料秘訣

請遵循下列秘訣進一步最佳化資料集,以便進行定型。

  • 使用以文字為基礎的 PDF 文件,而非以影像為基礎的文件。 掃描的 PDF 將視為影像處理。
  • 針對已完成的表單,請使用已填入所有欄位的範例。
  • 使用在每個欄位中具有不同值的表單。
  • 針對已完成的表單,請使用較大的資料集 (10-15 個影像)。

上傳定型資料集

收集到一組定型用的文件後,您必須將其上傳至 Azure Blob 儲存體容器。 如果您不知道如何使用容器建立 Azure 儲存體帳戶,請遵循適用於 Azure 入口網站的 Azure 儲存體快速入門。 使用標準效能層級。

如果您想要使用手動標記的資料,請上傳對應至定型文件的 .label.json.ocr.json 檔案。 您可以使用範例標記工具 (或自己的 UI) 來產生這些檔案。

在子資料夾中組織您的資料 (選擇性)

根據預設,定型自訂模型 API 只會使用位於儲存體容器根目錄的文件。 不過,如果您在 API 呼叫中指定,則可以使用子資料夾中的資料進行定型。 一般而言,定型自訂模型呼叫的主體具有下列格式,其中 <SAS URL> 是容器的共用存取簽章 URL:

{
  "source":"<SAS URL>"
}

如果您將下列內容新增至要求本文,API 會使用位於子資料夾的文件進行定型。 "prefix" 欄位是選擇性欄位,而且會將定型資料集限制為路徑以指定字串開頭的檔案。 因此,"Test" 的值 (舉例來說) 會導致 API 只查看開頭為 Test 一字的檔案或資料夾。

{
  "source": "<SAS URL>",
  "sourceFilter": {
    "prefix": "<prefix string>",
    "includeSubFolders": true
  },
  "useLabelFile": false
}

下一步

既然您已了解如何建置定型資料集,請遵循快速入門來定型自訂文件智慧服務模型,並開始在您的表單上使用該模型。

另請參閱