使用者入門:文件智慧服務工作室
此內容適用於: v4.0 (預覽版) | 較舊版本:
v3.1 (GA)
v3.0 (GA)
文件智慧服務工作室 (英文) 是一項線上工具,可讓您以視覺化的方式探索、了解,並將文件智慧服務的功能整合到您的應用程式中。 使用範例或您自己的文件探索預先定型的模型,即可開始使用。 您也可以建立專案來建置自訂範本模型,並使用 Python SDK 和其他快速入門來參考應用程式中的模型。
新使用者的必要條件
若要使用文件智慧服務工作室,您需要下列資產和設定:
提示
如果您打算在單一端點/金鑰下存取多個 Azure AI 服務,請建立 Azure AI 服務資源。 若為僅限文件智慧服務存取,請建立文件智慧服務資源。 請注意,如果您想要使用 Microsoft Entra 驗證 (部分機器翻譯),需要使用單一服務資源。
在存取文件智慧服務資源和儲存體帳戶時,除了本機 (金鑰型) 驗證外,文件智慧服務現在還支援 AAD 權杖驗證。 請務必遵循下列指示來設定正確的存取角色,特別是當您的資源套用 DisableLocalAuth
原則時。
適當規劃 Azure 角色指派範圍 對於文件分析和預先建置的模型,不同案例所需的角色指派如下。
基本 ✔️ 認知服務使用者:您需要文件智慧服務或 Azure AI 服務資源的這個角色,才能進入分析頁面。
進階 ✔️ 參與者:您需要這個角色才能建立資源群組、文件智慧服務或 Azure AI 服務資源。
如需授權的詳細資訊,請參閱文件智慧服務工作室授權原則 (部分機器翻譯)。
注意
如果文件智慧服務資源停用本機 (金鑰型) 驗證,請務必取得認知服務使用者角色,且系統會使用您的 AAD 權杖在文件智慧服務工作室上驗證要求。 參與者角色只允許您列出金鑰,而不會在金鑰存取停用時提供您使用資源的權限。
一旦設定了資源,您就可以試用文件智慧服務工作室所提供的不同模型。 從首頁中,選取任何文件智慧服務模型,嘗試與無程式碼方法搭配使用。
若要測試任何文件分析或預建模型,請選取模型並使用其中一個範例文件,或上傳您自己的文件來分析。 分析結果會顯示在 content-result-code 視窗中的右邊。
自訂模型必須根據您的文件進行定型。 如需自訂模型的概觀,請參閱自訂模型概觀。
驗證
瀏覽至文件智慧服務工作室。 若您是第一次登入,會出現快顯視窗來提示您設定服務資源。 根據貴組織的原則,您有一或兩個選項:
Microsoft Entra 驗證:依資源存取 (建議)。
選擇現有的訂用帳戶
建立新的資源群組,或從您的訂用帳戶中選取現有的資源群組。
選取您現有的文件智慧服務或 Azure AI 服務資源。
本機驗證:依 API 端點和金鑰存取。
從 Azure 入口網站擷取端點和金鑰。
前往您的資源 [概觀] 頁面,然後從左側導覽列中選取 [金鑰和端點]。
在適當欄位中輸入該值。
在驗證文件智慧服務工作室中的案例之後,請使用 C#、Java、JavaScript 或 Python 用戶端程式庫或 REST API,以開始將文件智慧服務模型納入您自己的應用程式中。
若要深入了解每個模型,請參閱我們的概念頁面。
檢視資源詳細資料
若要檢視名稱與定價層等資源詳細資料,請選取文件智慧服務器工作室首頁右上角的 [設定] 圖示,然後選取 [資源] 索引標籤。如果您有其他資源的存取權,也可以切換資源。
模型
預先建置的模型會協助您將文件智慧服務功能新增至您的應用程式,且不需要建置、定型及發佈您自己的模型。 您可以從數個預先建置的模型中選擇,每個模型各自都有一組支援資料欄位。 要用於 analyze
作業的模型選擇取決於要分析的文件類型。 文件智慧服務目前支援下列預先建置的模型:
文件分析
- 版面配置:從文件 (PDF、TIFF) 和影像 (JPG、PNG、BMP) 擷取文字、表格、選取標記和結構資訊。
- 讀取:如果從文件 (PDF、TIFF) 和影像 (JPG、PNG、BMP) 偵測到文字行、字詞、文字位置、語言和手寫樣式,那麼就會從中擷取上述項目。
預建
- 發票:從發票擷取文字、選取標記、資料表、索引鍵/值組和重要資訊。
- 收據:從收據擷取文字和重要資訊。
- 醫療保健卡:從美國醫療保健卡擷取保險公司、成員、處方、群組號碼和其他重要資訊。
- W-2:從 W-2 稅務表單擷取文字和重要資訊。
- 身分證明文件:從駕照和國際護照擷取文字和重要資訊。
自訂
- 自訂擷取模型:使用自訂擷取模型從表單和文件擷取資訊。 只需標示五份範例文件,即可快速定型模型。
- 自訂分類模型:定型自訂分類器,以區別應用程式內的不同文件型別。 只需兩個類別以及每個類別五個範例,即可快速定型模型。
完成必要條件之後,請瀏覽至文件智慧服務工作室。
從工作室首頁選取文件智慧服務功能。 除非您已從先前的使用中選取了服務資源,否則此步驟屬於一次性程序。 選取您的 Azure 訂用帳戶、資源群組和資源。 (您隨時可以在上方功能表的 [設定] 中變更資源。)檢閱並確認您的選取項目。
選取 [分析] 按鈕,以便在範例文件上執行分析,或使用 [新增] 命令來試用您的文件。
使用畫面底部的控制項,來放大縮小及旋轉文件檢視。
在文件檢視中,觀察醒目提示的擷取內容。 若要檢視詳細資料,將滑鼠停留在索引鍵和值的上方。
將輸出區段的 [結果] 索引標籤格式化,並瀏覽 JSON 輸出以更深入了解服務回應。
選取 [程式碼] 索引標籤,並瀏覽範例程式碼來進行整合。 複製並下載,以此開始使用。
已新增自訂專案的必要條件
除了 Azure 帳戶和文件智慧服務或 Azure AI 服務資源之外,您還需要:
Azure Blob 儲存體容器
標準效能 Azure Blob 儲存體帳戶。 您會建立容器,以在您的儲存體帳戶內儲存和整理定型文件。 如果您不知道如何使用容器建立 Azure 儲存體帳戶,請遵循下列快速入門:
- 建立儲存體帳戶。 建立儲存體帳戶時,請務必在 [執行個體詳細資料] → [效能] 欄位中選取標準效能。
- 建立容器。 建立容器時,在 [新增容器] 視窗中,將 [公用存取層級] 欄位設定為 [容器] (容器和 Blob 的匿名讀取權限)。
Azure 角色指派
對於自訂專案,不同案例所需的角色指派如下。
基本
- 認知服務使用者:您需要文件智慧服務或 Azure AI 服務資源的這個角色,才能定型自訂模型或使用定型模型進行分析。
- 儲存體 Blob 資料參與者:您需要儲存體帳戶的這個角色,才能建立專案並標記資料。
進階
- 儲存體帳戶參與者:您需要儲存體帳戶的這個角色,才能設定 CORS 設定 (如果重複使用相同的儲存體帳戶,則只須進行一次這個動作)。
- 參與者:您需要這個角色,才能建立資源群組和資源。
注意
如果您的文件智慧服務資源和儲存體帳戶停用本機 (金鑰型) 驗證,請務必分別取得認知服務使用者和儲存體 Blob 資料參與者角色,以便有足夠的權限可以使用文件智慧服務工作室。 儲存體帳戶參與者和參與者角色只允許您列出金鑰,而不會在金鑰存取停用時提供您使用資源的權限。
設定 CORS
必須在您的 Azure 儲存體帳戶上設定 CORS (跨原始來源資源共用),才能從文件智慧服務工作室存取 CORS。 若要在 Azure 入口網站中設定 CORS,您會需要存取儲存體帳戶的 CORS 索引標籤。
選取儲存體帳戶的 [CORS] 索引標籤。
首先,在 Blob 服務中建立一個新的 CORS 項目。
將 [允許的來源] 設定為
https://documentintelligence.ai.azure.com
。提示
您可以使用萬用字元 '*' 而非指定的網域,以此允許所有原始網域透過 CORS 提出要求。
選取 [允許的方法] 中所有可用的 8 個選項。
在每個欄位中輸入 *,以此來核准所有允許的標頭和公開標頭。
將 [存留期上限] 設定為 120 秒或任何可接受的值。
若要儲存變更,選取頁面頂端的 [儲存] 按鈕。
CORS 現在應該已設定為使用來自文件智慧服務工作室的儲存體帳戶。
範例文件集
登入 Azure 入口網站並瀏覽至儲存體帳戶>資料儲存體>容器。
從清單中選取一個容器。
從頁面頂端的功能表中選取 [上傳]。
[上傳 Blob] 視窗隨即出現。
選取要上傳的檔案。
注意
根據預設,工作室會使用位於容器根目錄的文件。 不過,您可以在自訂表單專案建立步驟中指定資料夾路徑,以此來使用組織在資料夾中的資料。 請參閱在子資料夾中組織您的資料
自訂模型
若要建立自訂模型,請您從設定專案開始:
選取 [自訂模型] 卡片以從工作室首頁開啟 [自訂模型] 頁面。
使用 [建立專案] 命令,並啟動新的專案設定精靈。
輸入專案詳細資料、選取 Azure 訂用帳戶和資源,以及包含您資料的 Azure Blob 儲存體容器。
檢閱您的設定、提交並建立專案。
請使用自動標籤功能,以使用已定型的模型或其中一個預先建置的模型進行標示。
使用手動標籤定義標籤及其擷取類型。
選取文件中的文字,然後從下拉式清單或標籤窗格中選取標籤。
再為四份文件加上標籤,好取得至少五份加上標籤的文件。
選取 [定型] 命令並輸入模型名稱,選取您想要使用神經 (建議) 或是範本模型來開始定型您的自訂模型。
模型就緒後,使用 [Test] 命令來驗證模型和測試文件,然後觀察結果。
標示為資料表
注意
- 隨著 API 版本 2022-06-30-preview 和更新版本的發行,自訂範本模型將新增對跨頁表格式欄位 (資料表) 的支援。
- 隨著 API 版本 2022-06-30-preview 和更新版本的發行,自訂神經模型將支援表格式欄位 (資料表),而且使用 API 版本 2022-08-31 或更新版本定型的模型將會接受表格式欄位標籤。
使用 Delete 命令來刪除不需要的模型。
下載模型詳細資料以供離線檢視。
選取多個模型,並將其撰寫成新的模型,然後用於您的應用程式。
將資料表用做視覺模式:
針對自訂表單模型,在建立自訂模型時,您可能會需要從文件中擷取資料集合。 資料集合可能會以幾種格式出現。 將資料表用做視覺模式:
動態或變數計數,針對的是一組給定欄位 (資料行) 的值 (資料列)
特定集合,針對的是一組給定欄位 (資料行和/或資料列) 的值
將標籤設為動態資料表
使用動態資料表,針對一組給定欄位 (資料行) 的值 (資料列) 來擷取其變數計數:
新增「資料表」類型的標籤、選取 「動態資料表」類型,並為其命名。
新增需要的資料行 (欄位) 數目與資料列 (資料用)。
選取您頁面中的文字,然後選擇儲存格,並將其指派給該文字。 針對所有文件中全部頁面的每個資料列和資料行,重複進行上述步驟。
將標籤設為固定資料表
使用動態資料表,針對一組給定欄位 (資料行和/或資料列) 的值來擷取其特定的集合:
建立新的「資料表」類型標籤、選取「固定資料表」類型,並為其命名。
在資料行和資料列新增數字,且您需要該資料行和資料列對應至兩組欄位。
選取您頁面中的文字,然後選擇儲存格,並將其指派給該文字。 在其他文件重複進行。
簽章偵測
注意
簽章欄位目前僅為自訂範本模型所支援。 在定型自訂神經模型時,會忽略已標示的簽章欄位。
若要加上簽章偵測的標籤:(僅在自訂表單適用)
使用標籤檢視建立新的「簽章」類型標籤,並將其命名。
使用 Region 命令,在簽章的預期位置建立一個矩形區域。
選取繪製的區域,然後選擇 [簽章類型] 標籤,並便將其指派給您的繪製區域。 在其他文件重複進行。
下一步
- 請遵循我們的文件智慧服務 v3.1 移轉指南,以了解其與上一版 REST API 的差異。
- 探索我們的 v3.0 SDK 快速入門,以使用新的用戶端程式庫在您的應用程式中試用 v3.0 功能。
- 請參閱我們的 v3.0 REST API 快速入門,以便使用新的 REST API 來試用 v3.0 功能。
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應