Share via


檔智慧標識碼檔模型

重要

  • Document Intelligence 公開預覽版本提供早期存取作用中開發的功能。
  • 根據使用者意見反應,功能、方法和流程在正式發行 (GA) 前可能有所變更。
  • Document Intelligence 用戶端連結庫的公開預覽版本預設為 REST API 版本 2024-02-29-preview
  • 公開預覽版本 2024-02-29-preview 目前僅適用於下列 Azure 區域:
  • 美國東部
  • 美國西部 2
  • 西歐

此內容適用於:複選標記v4.0 (預覽) | 舊版:blue-checkmarkv3.1 (GA)blue-checkmarkv3.0 (GA)blue-checkmarkv2.1 (GA)

此內容適用於:複選標記v3.1 (GA) | 最新版本:紫色複選標記v4.0 (預覽) | 舊版:blue-checkmarkv3.0blue-checkmarkv2.1

此內容適用於:複選標記v3.0 (GA) | 最新版本:紫色複選標記v4.0 (預覽)紫色複選標記v3.1 | 舊版:blue-checkmarkv2.1

此內容適用於:複選標記v2.1 | 最新版本:blue-checkmarkv4.0(預覽)

檔智慧識別檔 (ID) 模型結合光學字元辨識 (OCR) 與深度學習模型,以分析及擷取識別檔中的關鍵資訊。 API 分析身分識別文件 (包括以下內容) 並傳回結構化 JSON 資料表示:

  • 全球護照簿、護照卡
  • 來自 美國、歐洲、印度、加拿大和澳大利亞的駕駛執照
  • 美國 身份證、居住證(綠卡)、社會保障卡、軍事身份證
  • 歐洲身份證、居住證
  • 印度 PAN 卡、Aadhaar 卡
  • 加拿大身份證、居住證(楓卡)
  • 澳大利亞照片卡、鑰匙通行證標識碼(包括數位版)

文件智慧可以使用其預先建置的標識符模型,分析及擷取政府簽發的標識碼(標識符)的資訊。 其結合了強大的光學字元辨識 (OCR) 功能與 ID 辨識功能,可擷取全球護照和美國駕照 (全部 50 個州和哥倫比亞特區) 上的重要資訊。 標識元 API 會從這些身分識別檔擷取重要資訊,例如名字、姓氏、出生日期、文件號碼等等。 此 API 可在 Document Intelligence v2.1 中以雲端服務的形式提供。

身分識別文件處理

身分識別文件處理需手動擷取或使用 OCR 型技術來擷取身分識別文件中的資料。 標識符文件處理是任何需要身分識別證明的商業作業的重要步驟。 例如銀行和其他金融機構中的客戶驗證、抵押申請、就醫、索賠處理、餐旅業等。 人們會透過駕照、護照及其他類似文件提供身分證明,讓企業可以在有效率地驗證後提供服務和權益。

資料擷取

預先建置的 ID 服務會從全球護照和美國駕照中擷取機碼值,並在有組織的結構化 JSON 回應中傳回這些值。

駕照範例

範例驅動程序授權

護照範例

範例 Passport

開發選項

Document Intelligence v4.0 (2024-02-29-preview, 2023-10-31-preview) 支援下列工具、應用程式和連結庫:

功能 資源 Model ID
識別碼文件模型 Document Intelligence Studio
REST API
C# SDK• Python SDK
Java SDK
JavaScript SDK
prebuilt-idDocument

Document Intelligence v3.1 支援下列工具、應用程式和連結庫:

功能 資源 Model ID
識別碼文件模型 Document Intelligence Studio
REST API
C# SDK• Python SDK
Java SDK
JavaScript SDK
prebuilt-idDocument

Document Intelligence v3.0 支援下列工具、應用程式和連結庫:

功能 資源 Model ID
識別碼文件模型 Document Intelligence Studio
REST API
C# SDK• Python SDK
Java SDK
JavaScript SDK
prebuilt-idDocument

Document Intelligence v2.1 支援下列工具、應用程式和連結庫:

功能 資源
識別碼文件模型 文件智慧標籤工具
REST API
• 用戶端連結庫 SDK
Document Intelligence Docker 容器

輸入需求

  • 若要得到最佳結果,請為每個文件提供一張清晰的照片或高畫質的掃描檔案。

  • 支援的檔案格式:

    模型 PDF 圖片:
    JPEG/JPG、PNG、BMP、TIFF、HEIF
    Microsoft Office:
    Word(DOCX)、Excel(XLSX)、PowerPoint(PPTX)和 HTML
    參閱
    版面配置 ✔ (2024-02-29-preview, 2023-10-31-preview)
    一般文件
    預建
    自訂擷取
    自訂分類 ✔ (2024-02-29-preview)
  • 若使用 PDF 和 TIFF,最多可處理 2000 頁 (若使用免費層訂閱,則只會處理前兩頁)。

  • 用於分析文件的檔案大小是付費 (S0) 層的 500 MB,免費 #F0 層為 4 MB。

  • 影像維度必須介於 50 x 50 像素和 10,000 x 10,000 像素之間。

  • 如果您的 PDF 有密碼鎖定,則必須先移除鎖定才能提交。

  • 針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。 此尺寸在 150 點/英吋 (DPI) 時大約相當於 8 點文字。

  • 針對自訂模型定型,自訂範本模型的定型資料頁數上限為 500,而自訂神經網路模型的上限則為 50,000。

    • 針對自訂擷取模型定型,範本模型的定型資料大小總計為 50 MB,而神經模型的大小總計則為 1G-MB。

    • 針對自訂分類模型定型,定型資料的大小總計為 1GB (上限為 10,000 頁)。

  • 支援的檔案格式:JPEG、PNG、PDF 和 TIFF。

  • PDF 和 TIFF 檔案支援的頁數:最多 2,000 頁,或只有免費層訂閱者的前兩頁。

  • 支援的檔案大小:總計小於 50 MB;最小圖元:50 x 50 圖元;最大圖元 10,000 x 10,000 像素。

標識符檔模型數據擷取

擷取 ID 文件中的資料,包括姓名、出生日期以及到期日。 您需要下列資源:

  • Azure 訂用帳戶-您可以 免費建立一個訂用帳戶。

  • Azure 入口網站中的 Document Intelligence 執行個體。 您可以使用免費定價層 (F0) 來試用服務。 部署資源後,選取 [前往資源] 以取得金鑰和端點。

Azure 入口網站 中金鑰和端點位置的螢幕快照。

注意

文件智慧服務工作室有 v3.1 和 v3.0 API 及更高版本可供使用。

  1. 在 [文件智慧 Studio] 首頁上,選取 [ 身分識別檔]。

  2. 您可以分析範例發票,或上傳您自己的檔案。

  3. 選取 [ 執行分析] 按鈕,並視需要設定 [分析] 選項

    Document Intelligence Studio 中 [執行分析和分析選項] 按鈕的螢幕快照。

文件智慧服務範例標籤工具

  1. 瀏覽至 Document Intelligence 範例工具

  2. 在範例工具首頁上,選取 [使用預建模型來取得資料] 圖格。

    配置模型分析結果作業的螢幕快照。

  3. 從下拉式功能表選取要分析的 [表單類型]

  4. 從下列選項中選擇您想要分析的檔案 URL:

  5. 在 [來源] 欄位中,從下拉式功能表中選取 [URL],貼上選取的 URL,然後選取 [擷取] 按鈕。

    來源位置下拉功能表的螢幕快照。

  6. 在 [文件智慧服務端點] 欄位中,貼上您透過文件智慧服務訂用帳戶取得的端點。

  7. 在 [金鑰] 欄位中,貼上您從文件智慧服務資源取得的金鑰。

    選取檔案類型下拉功能表的螢幕快照。

  8. 選取 [Run analysis] (執行分析)。 文件智慧範例標籤工具會呼叫分析預先建置的 API 並分析檔。

  9. 檢視結果 - 查看擷取的索引鍵/值組、行專案、已擷取的醒目提示文字,以及偵測到的數據表。

    身分識別模型分析結果作業的螢幕快照。

  10. 下載 JSON 輸出檔案以檢視詳細結果。

    • [readResults] 節點包含每一行文字,以及各自的周框方塊在頁面上的位置。
    • “selectionMarks” 節點會顯示每個選取標記(複選框、單選標記),以及其狀態為已選取或未選取
    • [pageResults] 區段包含擷取的資料表。 針對每個數據表,Document Intelligence 會擷取文字、數據列和數據行索引、數據列和數據行跨越、周框方塊等等。
    • [documentResults] 欄位包含文件最相關部分的索引鍵/值組資訊和明細項目資訊。

注意

範例標記工具不支援 BMP 檔案格式。 這是工具的限制,而不是 Document Intelligence 服務的限制。

支援的文件類型

區域 文件類型
全球 護照本、護照卡
美國 駕照、身分證、居留證 (綠卡)、社會安全號碼、軍警證件
歐洲 駕照、身份證、落地證
印度 駕照、PAN 卡、Aadhaar 卡片
加拿大 駕照、身分證、居留證 (楓葉卡)
澳洲 駕照、身分證、Key-pass ID (包括數位版)

欄位擷取

以下是每個文件類型擷取的欄位。 文件智慧標識元模型 prebuilt-idDocument 會擷取 中的 documents.*.fields下列欄位。 json 輸出包括文件中擷取的所有文字、字組、行和樣式。

idDocument.driverLicense

欄位 類型 描述 範例
CountryRegion countryRegion 國家或地區代碼 USA
Region string 縣/市 華盛頓州
DocumentNumber string 駕照號碼 WDLABCD456DG
DocumentDiscriminator string 駕照文件鑑別子 12645646464554646456464544
FirstName string 名字和中間名 (如適用) LIAM R.
LastName string Surname TALBOT
Address address 位址 123 STREET ADDRESS YOUR CITY WA 99999-1234
DateOfBirth date 生日 01/06/1958
DateOfExpiration date 到期日 08/12/2020
DateOfIssue date 核發日期 08/12/2012
EyeColor string 眼球色彩 藍色
HairColor string 頭髮顏色 棕色
Height string 5'11"
Weight string Weight 185LB
Sex string 性別
Endorsements string 認可 L
Restrictions string 限制 B
VehicleClassifications string 車輛分類 D

idDocument.passport

欄位 類型 描述 範例
DocumentNumber string 護照號碼 340020013
FirstName string 名字和中間名 (如適用) JENNIFER
MiddleName string 名字和姓氏之間的名稱 REYES
LastName string Surname BROOKS
Aliases array
Aliases.* string 也稱為 MAT LIN
DateOfBirth date 生日 1980-01-01
DateOfExpiration date 到期日 2019-05-05
DateOfIssue date 核發日期 2014-05-06
Sex string 性別 F
CountryRegion countryRegion 核發國家或組織 USA
DocumentType string Document type P
Nationality countryRegion 國籍 USA
PlaceOfBirth string 出生地 MASSACHUSETTS, U.S.A.
PlaceOfIssue string 核發地點 裡斯本
IssuingAuthority string 核發單位 美國國務院
PersonalNumber string 個人身分證 否。 A234567893
MachineReadableZone object 可由電腦判讀的區域 (MRZ) P<USABROOKS<<JENNIFER<<<<<<<<<<<<<<<<<<<<<<< 3400200135USA8001014F1905054710000307<715816
MachineReadableZone.FirstName string 名字和中間名 (如適用) JENNIFER
MachineReadableZone.LastName string Surname BROOKS
MachineReadableZone.DocumentNumber string 護照號碼 340020013
MachineReadableZone.CountryRegion countryRegion 核發國家或組織 USA
MachineReadableZone.Nationality countryRegion 國籍 USA
MachineReadableZone.DateOfBirth date 生日 1980-01-01
MachineReadableZone.DateOfExpiration date 到期日 2019-05-05
MachineReadableZone.Sex string 性別 F

idDocument.nationalIdentityCard

欄位 類型 描述 範例
CountryRegion countryRegion 國家或地區代碼 USA
Region string 縣/市 華盛頓州
DocumentNumber string 國家身份證號碼 WDLABCD456DG
DocumentDiscriminator string 國家身份證文件歧視性 12645646464554646456464544
FirstName string 名字和中間名 (如適用) LIAM R.
LastName string Surname TALBOT
Address address 位址 123 STREET ADDRESS YOUR CITY WA 99999-1234
DateOfBirth date 生日 01/06/1958
DateOfExpiration date 到期日 08/12/2020
DateOfIssue date 核發日期 08/12/2012
EyeColor string 眼球色彩 藍色
HairColor string 頭髮顏色 棕色
Height string 5'11"
Weight string Weight 185LB
Sex string 性別

idDocument.residencePermit

欄位 類型 描述 範例
CountryRegion countryRegion 國家或地區代碼 USA
DocumentNumber string 居留證號碼 WDLABCD456DG
FirstName string 名字和中間名 (如適用) LIAM R.
LastName string Surname TALBOT
DateOfBirth date 生日 01/06/1958
DateOfExpiration date 到期日 08/12/2020
DateOfIssue date 核發日期 08/12/2012
Sex string 性別
PlaceOfBirth string 出生地 德國
Category string 許可類別 DV2
Address string 位址 123 STREET ADDRESS YOUR CITY WA 99999-1234

idDocument.usSocialSecurityCard

欄位 類型 描述 範例
DocumentNumber string 社會安全卡號碼 WDLABCD456DG
FirstName string 名字和中間名 (如適用) LIAM R.
LastName string Surname TALBOT
DateOfIssue date 核發日期 08/12/2012

idDocument

欄位 類型 描述 範例
Address address 位址 123 STREET ADDRESS YOUR CITY WA 99999-1234
DocumentNumber string 駕照號碼 WDLABCD456DG
FirstName string 名字和中間名 (如適用) LIAM R.
LastName string Surname TALBOT
DateOfBirth date 生日 01/06/1958
DateOfExpiration date 到期日 08/12/2020

支援的文件類型

標識符檔模型目前支援美國駕駛執照和國際護照的傳記頁面(不包括簽證和其他旅行檔)擷取。

擷取的欄位

名稱 類型​​ 描述
國家/地區 國家/地區 符合 ISO 3166 標準的國碼 (地區碼) "USA"
DateOfBirth date YYYY-MM-DD 格式的 DOB "1980-01-01"
DateOfExpiration date YYYY-MM-DD 格式的到期日 "2019-05-05"
DocumentNumber string 相關的護照號碼、駕照號碼等等 "340020013"
FirstName string 擷取的名字和中間名 (如適用) "JENNIFER"
LastName string 擷取的姓氏 "BROOKS"
國籍 國家/地區 符合 ISO 3166 標準的國碼 (地區碼) "USA"
性別 性別 可能擷取的值包括 “M” “F” “X” "F"
MachineReadableZone object 擷取的護照 MRZ 包含兩行,各 44 個字元 "P<USABROOKS<<JENNIFER<<<<<<<<<<<<<<<<<<<<<<< 3400200135USA8001014F1905054710000307<715816"
DocumentType string 文件類型,例如,護照、駕照 "passport"
位址 string 擷取的地址 (僅限駕照) "123 STREET ADDRESS YOUR CITY WA 99999-1234"
區域 string 擷取區域、州、省等(僅限駕照) "Washington"

移轉指南

下一步