共用方式為


開始使用:Document Intelligence Studio

此內容適用於:複選標記v4.0 (預覽) | 舊版:blue-checkmarkv3.1 (GA)blue-checkmarkv3.0 (GA)

Document Intelligence Studio 是一種在線工具,可讓您以可視化方式探索、瞭解和整合應用程式中 Document Intelligence 服務的功能。 使用範例或您自己的文件探索預先定型的模型,即可開始使用。 您也可以建立專案來建置自訂範本模型,並使用 Python SDK 和其他快速入門來參考應用程式中的模型。

新使用者的必要條件

提示

如果您打算在單一端點/金鑰下存取多個 Azure AI 服務,請建立 Azure AI 服務資源。 若為僅限文件智慧服務存取,請建立文件智慧服務資源。 請注意,如果您想要使用 Microsoft Entra 驗證,則需要單一服務資源。

檔智慧現在支援存取 Document Intelligence 資源和記憶體帳戶時,本機(金鑰型)驗證的額外 AAD 令牌驗證。 請務必遵循下列指示來設定正確的存取角色,特別是當您的資源套用原則 DisableLocalAuth 時。

Azure 角色指派

對於檔分析和預先建置的模型,不同案例需要下列角色指派。

  • 基本
    • 認知服務使用者:您需要此角色來記錄智慧或 Azure AI 服務資源,才能輸入分析頁面。
  • 高深
    • 參與者:您需要此角色來建立資源群組、Document Intelligence 服務或 Azure AI 服務資源。

如需授權的詳細資訊, 請參閱Document Intelligence Studio 授權原則

注意

如果 Document Intelligence 服務資源停用本機(金鑰型)驗證,請務必取得 認知服務使用者 角色,且您的 AAD 令牌將用來在 Document Intelligence Studio 上驗證要求。 參與者角色只允許您列出密鑰,但在停用金鑰存取時,不會授與您使用資源的許可權。

模型

預先建置的模型可協助您將檔智慧功能新增至您的應用程式,而不需要建置、定型及發佈您自己的模型。 您可以從數個預先建置的模型中選擇,每個模型各自都有一組支援資料欄位。 要用於 analyze 作業的模型選擇取決於要分析的文件類型。 Document Intelligence 目前支援下列預先建置的模型:

文件分析

  • 版面配置:從文件 (PDF、TIFF) 和影像 (JPG、PNG、BMP) 擷取文字、表格、選取標記和結構資訊。
  • 讀取:如果從文件 (PDF、TIFF) 和影像 (JPG、PNG、BMP) 偵測到文字行、字詞、文字位置、語言和手寫樣式,那麼就會從中擷取上述項目。

預建

  • 發票:從發票擷取文字、選取標記、資料表、索引鍵/值組和重要資訊。
  • 收據:從收據擷取文字和重要資訊。
  • 醫療保險卡:從美國醫療保險卡中擷取保險公司、成員、處方、組號和其他重要資訊。
  • W-2:從 W-2 稅務表單擷取文字和重要資訊。
  • 身分證明文件:從駕照和國際護照擷取文字和重要資訊。

自訂

  • 自訂擷取模型:使用自訂擷取模型從表單和文件擷取資訊。 只需標示五份範例文件,即可快速定型模型。
  • 自訂分類模型:定型自訂分類器,以區別應用程式內的不同文件型別。 只需兩個類別以及每個類別五個範例,即可快速定型模型。

完成必要條件之後,請流覽至 Document Intelligence Studio

  1. 從 Studio 首頁選取文件智慧服務功能。 此步驟是一次性程式,除非您已從先前使用中選取服務資源。 選取您的 Azure 訂用帳戶、資源群組和資源。 (您隨時可以在上方功能表的 [設定] 中變更資源。)檢閱並確認您的選取項目。

  2. 選取 [分析] 按鈕,以便在範例文件上執行分析,或使用 [新增] 命令來試用您的文件。

  3. 使用畫面底部的控制項來放大、縮小及旋轉文件檢視。

  4. 在文件檢視中,觀察醒目提示的擷取內容。 將滑鼠停留在索引鍵和值的上方,以便查看詳細資料。

  5. 選取輸出區段的 [結果] 索引標籤,並流覽 JSON 輸出以瞭解服務回應格式。

  6. 選取 [程序代碼] 索引標籤,並瀏覽範例程式代碼以進行整合。 複製並下載,以此開始使用。

已新增自訂專案的必要條件

除了 Azure 帳戶和 Document Intelligence 或 Azure AI 服務資源之外,您還需要:

Azure Blob 儲存體容器

標準效能Azure Blob 儲存體帳戶。 您會建立容器,以在您的儲存體帳戶內儲存和整理定型文件。 如果您不知道如何使用容器建立 Azure 儲存體帳戶,請遵循下列快速入門:

  • 建立儲存體帳戶。 建立儲存體帳戶時,請務必在 [執行個體詳細資料] → [效能] 欄位中選取標準效能。
  • 建立容器。 建立容器時,在 [新增容器] 視窗中,將 [公用存取層級] 欄位設定為 [容器] (容器和 Blob 的匿名讀取權限)。

Azure 角色指派

針對自定義專案,不同案例需要下列角色指派。

  • 基本

    • 認知服務使用者:文件智慧或 Azure AI 服務資源需要此角色,才能定型自定義模型,或使用定型模型進行分析。
    • 記憶體 Blob 數據參與者:您需要此角色,記憶體帳戶才能建立專案並標記數據。
  • 進階

    • 記憶體帳戶參與者:您需要此角色,記憶體帳戶才能設定 CORS 設定(如果重複使用相同的記憶體帳戶,此動作是一次性的工作)。
    • 參與者:您需要此角色才能建立資源群組和資源。

    注意

    如果您的 Document Intelligence 服務資源和儲存器帳戶停用本機(金鑰型)驗證,請務必分別取得 認知服務使用者記憶體 Blob 數據參與者 角色,因此您有足夠的許可權可以使用 Document Intelligence Studio。 儲存器 帳戶參與者參與者 角色只允許您列出密鑰,但在停用密鑰存取時,不會授與您使用資源的許可權。

設定 CORS

CORS (跨原始來源資源分享) 必須在 Azure 記憶體帳戶上設定,才能從 Document Intelligence Studio 存取。 若要在 Azure 入口網站中設定 CORS,您會需要存取儲存體帳戶的 CORS 索引標籤。

  1. 選取儲存體帳戶的 [CORS] 索引標籤。

    Azure 入口網站 中 CORS 設定功能表的螢幕快照。

  2. 首先,在 Blob 服務中建立一個新的 CORS 項目。

  3. 將 [允許的來源] 設定為 https://documentintelligence.ai.azure.com

    顯示記憶體帳戶 CORS 設定的螢幕快照。

    提示

    您可以使用萬用字元 '*' 而非指定的網域,以此允許所有原始網域透過 CORS 提出要求。

  4. 選取 [允許的方法] 中所有可用的 8 個選項。

  5. 在每個欄位中輸入 *,以此來核准所有允許的標頭公開標頭

  6. 將 [存留期上限] 設定為 120 秒或任何可接受的值。

  7. 選取頁面頂端的 [儲存] 按鈕以儲存變更。

CORS 現在應該設定為使用 Document Intelligence Studio 中的記憶體帳戶。

範例文件集

  1. 登入 Azure 入口網站,並流覽至您的記憶體帳戶>數據記憶體>容器。

    Azure 入口網站 中的數據記憶體功能表螢幕快照。

  2. 從清單中選取一個容器

  3. 從頁面頂端的功能表中選取 [上傳]

    Azure 入口網站 中容器上傳按鈕的螢幕快照。

  4. [上傳 Blob] 視窗隨即出現。

  5. 選取要上傳的檔案。

    Azure 入口網站 中上傳 Blob 視窗的螢幕快照。

注意

根據預設,Studio 會使用位於容器根目錄的檔。 不過,您可以在自訂表單專案建立步驟中指定資料夾路徑,以此來使用組織在資料夾中的資料。 請參閱在子資料夾中組織您的資料

自訂模型

若要建立自訂模型,請您從設定專案開始:

  1. 從工作室首頁,選取 [自訂模型] 卡片以開啟 [自訂模型] 頁面。

  2. 使用 [建立專案] 命令來啟動新的專案設定精靈。

  3. 輸入專案詳細資料、選取 Azure 訂用帳戶和資源,以及包含您資料的 Azure Blob 儲存體容器。

  4. 檢閱並提交您的設定以建立專案。

  5. 使用自動標籤功能來使用已定型的模型或其中一個預先建置的模型來標記。

  6. 針對從頭開始手動標記,請定義您想要擷取的標籤及其類型。

  7. 選取文件中的文字,然後從下拉式清單或標籤窗格中選取標籤。

  8. 再為四份文件加上標籤,好取得至少五份加上標籤的文件。

  9. 選取 [定型] 命令並輸入模型名稱,選取您要讓類神經(建議)或範本模型開始定型自定義模型。

  10. 模型就緒之後,使用 [Test] 命令來驗證模型和測試文件,然後觀察結果。

Document Intelligence 自定義模型示範

標示為資料表

注意

  • 隨著 API 版本 2022-06-30-preview 和更新版本的發行,自訂範本模型將新增對跨頁表格式欄位 (資料表) 的支援。
  • 隨著 API 版本 2022-06-30-preview 和更新版本的發行,自訂神經模型將支援表格式欄位 (資料表),而且使用 API 版本 2022-08-31 或更新版本定型的模型將會接受表格式欄位標籤。
  1. 使用 Delete 命令來刪除不需要的模型。

  2. 下載模型詳細資料以供離線檢視。

  3. 選取多個模型,並將其撰寫成新的模型,然後用於您的應用程式。

將資料表用做視覺模式:

針對自訂表單模型,在建立自訂模型時,您可能會需要從文件中擷取資料集合。 資料集合可能會以幾種格式出現。 將資料表用做視覺模式:

  • 動態或變數計數,針對的是一組給定欄位 (資料行) 的值 (資料列)

  • 特定集合,針對的是一組給定欄位 (資料行和/或資料列) 的值

將標籤設為動態資料表

使用動態資料表,針對一組給定欄位 (資料行) 的值 (資料列) 來擷取其變數計數:

  1. 新增「資料表」類型的標籤、選取 「動態資料表」類型,並為其命名。

  2. 新增需要的資料行 (欄位) 數目與資料列 (資料用)。

  3. 選取您頁面中的文字,然後選擇要指派給該文字的儲存格。 針對所有文件中全部頁面的每個資料列和資料行,重複進行上述步驟。

將文件智慧標籤示為動態數據表範例

將標籤設為固定資料表

使用動態資料表,針對一組給定欄位 (資料行和/或資料列) 的值來擷取其特定的集合:

  1. 建立新的「資料表」類型標籤、選取「固定資料表」類型,並為其命名。

  2. 在資料行和資料列新增數字,且您需要該資料行和資料列對應至兩組欄位。

  3. 選取您頁面中的文字,然後選擇儲存格,以將其指派給該文字。 在其他文件重複進行。

檔智慧標籤作為固定數據表範例

簽章偵測

注意

簽章欄位目前僅為自訂範本模型所支援。 在定型自訂神經模型時,會忽略已標示的簽章欄位。

若要加上簽章偵測的標籤:(僅在自訂表單適用)

  1. 在標籤檢視中,建立新的「簽章」類型標籤,並將其命名。

  2. 使用 Region 命令,在簽章的預期位置建立一個矩形區域。

  3. 選取繪製的區域,然後選擇 [簽章類型] 標籤,以便將其指派給您的繪製區域。 在其他文件重複進行。

簽章偵測範例的檔智能標籤

下一步

開始使用 Document Intelligence Studio