檔智慧標識碼檔模型
重要
- Document Intelligence 公開預覽版本提供早期存取作用中開發的功能。
- 根據使用者意見反應,功能、方法和流程在正式發行 (GA) 前可能有所變更。
- Document Intelligence 用戶端連結庫的公開預覽版本預設為 REST API 版本 2024-02-29-preview。
- 公開預覽版本 2024-02-29-preview 目前僅適用於下列 Azure 區域:
- 美國東部
- 美國西部 2
- 西歐
此內容適用於:v4.0 (預覽) | 舊版:v3.1 (GA)v3.0 (GA)v2.1 (GA)
此內容適用於:v2.1 | 最新版本:v4.0(預覽)
檔智慧識別檔 (ID) 模型結合光學字元辨識 (OCR) 與深度學習模型,以分析及擷取識別檔中的關鍵資訊。 API 分析身分識別文件 (包括以下內容) 並傳回結構化 JSON 資料表示:
- 全球護照簿、護照卡
- 來自 美國、歐洲、印度、加拿大和澳大利亞的駕駛執照
- 美國 身份證、居住證(綠卡)、社會保障卡、軍事身份證
- 歐洲身份證、居住證
- 印度 PAN 卡、Aadhaar 卡
- 加拿大身份證、居住證(楓卡)
- 澳大利亞照片卡、鑰匙通行證標識碼(包括數位版)
文件智慧可以使用其預先建置的標識符模型,分析及擷取政府簽發的標識碼(標識符)的資訊。 其結合了強大的光學字元辨識 (OCR) 功能與 ID 辨識功能,可擷取全球護照和美國駕照 (全部 50 個州和哥倫比亞特區) 上的重要資訊。 標識元 API 會從這些身分識別檔擷取重要資訊,例如名字、姓氏、出生日期、文件號碼等等。 此 API 可在 Document Intelligence v2.1 中以雲端服務的形式提供。
身分識別文件處理
身分識別文件處理需手動擷取或使用 OCR 型技術來擷取身分識別文件中的資料。 標識符文件處理是任何需要身分識別證明的商業作業的重要步驟。 例如銀行和其他金融機構中的客戶驗證、抵押申請、就醫、索賠處理、餐旅業等。 人們會透過駕照、護照及其他類似文件提供身分證明,讓企業可以在有效率地驗證後提供服務和權益。
資料擷取
預先建置的 ID 服務會從全球護照和美國駕照中擷取機碼值,並在有組織的結構化 JSON 回應中傳回這些值。
駕照範例
護照範例
開發選項
Document Intelligence v4.0 (2024-02-29-preview, 2023-10-31-preview) 支援下列工具、應用程式和連結庫:
功能 | 資源 | Model ID |
---|---|---|
識別碼文件模型 | • Document Intelligence Studio • REST API • C# SDK• Python SDK • Java SDK • JavaScript SDK |
prebuilt-idDocument |
Document Intelligence v3.1 支援下列工具、應用程式和連結庫:
功能 | 資源 | Model ID |
---|---|---|
識別碼文件模型 | • Document Intelligence Studio • REST API • C# SDK• Python SDK • Java SDK • JavaScript SDK |
prebuilt-idDocument |
Document Intelligence v3.0 支援下列工具、應用程式和連結庫:
功能 | 資源 | Model ID |
---|---|---|
識別碼文件模型 | • Document Intelligence Studio • REST API • C# SDK• Python SDK • Java SDK • JavaScript SDK |
prebuilt-idDocument |
Document Intelligence v2.1 支援下列工具、應用程式和連結庫:
功能 | 資源 |
---|---|
識別碼文件模型 | • 文件智慧標籤工具 • REST API • 用戶端連結庫 SDK • Document Intelligence Docker 容器 |
輸入需求
若要得到最佳結果,請為每個文件提供一張清晰的照片或高畫質的掃描檔案。
支援的檔案格式:
模型 PDF 圖片:
JPEG/JPG、PNG、BMP、TIFF、HEIFMicrosoft Office:
Word(DOCX)、Excel(XLSX)、PowerPoint(PPTX)和 HTML參閱 ✔ ✔ ✔ 版面配置 ✔ ✔ ✔ (2024-02-29-preview, 2023-10-31-preview) 一般文件 ✔ ✔ 預建 ✔ ✔ 自訂擷取 ✔ ✔ 自訂分類 ✔ ✔ ✔ (2024-02-29-preview) 若使用 PDF 和 TIFF,最多可處理 2000 頁 (若使用免費層訂閱,則只會處理前兩頁)。
用於分析文件的檔案大小是付費 (S0) 層的 500 MB,免費 #F0 層為 4 MB。
影像維度必須介於 50 x 50 像素和 10,000 x 10,000 像素之間。
如果您的 PDF 有密碼鎖定,則必須先移除鎖定才能提交。
針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。 此尺寸在 150 點/英吋 (DPI) 時大約相當於
8
點文字。針對自訂模型定型,自訂範本模型的定型資料頁數上限為 500,而自訂神經網路模型的上限則為 50,000。
針對自訂擷取模型定型,範本模型的定型資料大小總計為 50 MB,而神經模型的大小總計則為 1G-MB。
針對自訂分類模型定型,定型資料的大小總計為
1GB
(上限為 10,000 頁)。
支援的檔案格式:JPEG、PNG、PDF 和 TIFF。
PDF 和 TIFF 檔案支援的頁數:最多 2,000 頁,或只有免費層訂閱者的前兩頁。
支援的檔案大小:總計小於 50 MB;最小圖元:50 x 50 圖元;最大圖元 10,000 x 10,000 像素。
標識符檔模型數據擷取
擷取 ID 文件中的資料,包括姓名、出生日期以及到期日。 您需要下列資源:
Azure 訂用帳戶-您可以 免費建立一個訂用帳戶。
Azure 入口網站中的 Document Intelligence 執行個體。 您可以使用免費定價層 (
F0
) 來試用服務。 部署資源後,選取 [前往資源] 以取得金鑰和端點。
注意
文件智慧服務工作室有 v3.1 和 v3.0 API 及更高版本可供使用。
在 [文件智慧 Studio] 首頁上,選取 [ 身分識別檔]。
您可以分析範例發票,或上傳您自己的檔案。
選取 [ 執行分析] 按鈕,並視需要設定 [分析] 選項:
文件智慧服務範例標籤工具
在範例工具首頁上,選取 [使用預建模型來取得資料] 圖格。
從下拉式功能表選取要分析的 [表單類型]。
從下列選項中選擇您想要分析的檔案 URL:
在 [來源] 欄位中,從下拉式功能表中選取 [URL],貼上選取的 URL,然後選取 [擷取] 按鈕。
在 [文件智慧服務端點] 欄位中,貼上您透過文件智慧服務訂用帳戶取得的端點。
在 [金鑰] 欄位中,貼上您從文件智慧服務資源取得的金鑰。
選取 [Run analysis] (執行分析)。 文件智慧範例標籤工具會呼叫分析預先建置的 API 並分析檔。
檢視結果 - 查看擷取的索引鍵/值組、行專案、已擷取的醒目提示文字,以及偵測到的數據表。
下載 JSON 輸出檔案以檢視詳細結果。
- [readResults] 節點包含每一行文字,以及各自的周框方塊在頁面上的位置。
- “selectionMarks” 節點會顯示每個選取標記(複選框、單選標記),以及其狀態為已選取或未選取。
- [pageResults] 區段包含擷取的資料表。 針對每個數據表,Document Intelligence 會擷取文字、數據列和數據行索引、數據列和數據行跨越、周框方塊等等。
- [documentResults] 欄位包含文件最相關部分的索引鍵/值組資訊和明細項目資訊。
注意
範例標記工具不支援 BMP 檔案格式。 這是工具的限制,而不是 Document Intelligence 服務的限制。
支援的文件類型
區域 | 文件類型 |
---|---|
全球 | 護照本、護照卡 |
美國 | 駕照、身分證、居留證 (綠卡)、社會安全號碼、軍警證件 |
歐洲 | 駕照、身份證、落地證 |
印度 | 駕照、PAN 卡、Aadhaar 卡片 |
加拿大 | 駕照、身分證、居留證 (楓葉卡) |
澳洲 | 駕照、身分證、Key-pass ID (包括數位版) |
欄位擷取
以下是每個文件類型擷取的欄位。 文件智慧標識元模型 prebuilt-idDocument
會擷取 中的 documents.*.fields
下列欄位。 json 輸出包括文件中擷取的所有文字、字組、行和樣式。
idDocument.driverLicense
欄位 | 類型 | 描述 | 範例 |
---|---|---|---|
CountryRegion |
countryRegion |
國家或地區代碼 | USA |
Region |
string |
縣/市 | 華盛頓州 |
DocumentNumber |
string |
駕照號碼 | WDLABCD456DG |
DocumentDiscriminator |
string |
駕照文件鑑別子 | 12645646464554646456464544 |
FirstName |
string |
名字和中間名 (如適用) | LIAM R. |
LastName |
string |
Surname | TALBOT |
Address |
address |
位址 | 123 STREET ADDRESS YOUR CITY WA 99999-1234 |
DateOfBirth |
date |
生日 | 01/06/1958 |
DateOfExpiration |
date |
到期日 | 08/12/2020 |
DateOfIssue |
date |
核發日期 | 08/12/2012 |
EyeColor |
string |
眼球色彩 | 藍色 |
HairColor |
string |
頭髮顏色 | 棕色 |
Height |
string |
高 | 5'11" |
Weight |
string |
Weight | 185LB |
Sex |
string |
性別 | 月 |
Endorsements |
string |
認可 | L |
Restrictions |
string |
限制 | B |
VehicleClassifications |
string |
車輛分類 | D |
idDocument.passport
欄位 | 類型 | 描述 | 範例 |
---|---|---|---|
DocumentNumber |
string |
護照號碼 | 340020013 |
FirstName |
string |
名字和中間名 (如適用) | JENNIFER |
MiddleName |
string |
名字和姓氏之間的名稱 | REYES |
LastName |
string |
Surname | BROOKS |
Aliases |
array |
||
Aliases.* |
string |
也稱為 | MAT LIN |
DateOfBirth |
date |
生日 | 1980-01-01 |
DateOfExpiration |
date |
到期日 | 2019-05-05 |
DateOfIssue |
date |
核發日期 | 2014-05-06 |
Sex |
string |
性別 | F |
CountryRegion |
countryRegion |
核發國家或組織 | USA |
DocumentType |
string |
Document type | P |
Nationality |
countryRegion |
國籍 | USA |
PlaceOfBirth |
string |
出生地 | MASSACHUSETTS, U.S.A. |
PlaceOfIssue |
string |
核發地點 | 裡斯本 |
IssuingAuthority |
string |
核發單位 | 美國國務院 |
PersonalNumber |
string |
個人身分證 否。 | A234567893 |
MachineReadableZone |
object |
可由電腦判讀的區域 (MRZ) | P<USABROOKS<<JENNIFER<<<<<<<<<<<<<<<<<<<<<<< 3400200135USA8001014F1905054710000307<715816 |
MachineReadableZone.FirstName |
string |
名字和中間名 (如適用) | JENNIFER |
MachineReadableZone.LastName |
string |
Surname | BROOKS |
MachineReadableZone.DocumentNumber |
string |
護照號碼 | 340020013 |
MachineReadableZone.CountryRegion |
countryRegion |
核發國家或組織 | USA |
MachineReadableZone.Nationality |
countryRegion |
國籍 | USA |
MachineReadableZone.DateOfBirth |
date |
生日 | 1980-01-01 |
MachineReadableZone.DateOfExpiration |
date |
到期日 | 2019-05-05 |
MachineReadableZone.Sex |
string |
性別 | F |
idDocument.nationalIdentityCard
欄位 | 類型 | 描述 | 範例 |
---|---|---|---|
CountryRegion |
countryRegion |
國家或地區代碼 | USA |
Region |
string |
縣/市 | 華盛頓州 |
DocumentNumber |
string |
國家身份證號碼 | WDLABCD456DG |
DocumentDiscriminator |
string |
國家身份證文件歧視性 | 12645646464554646456464544 |
FirstName |
string |
名字和中間名 (如適用) | LIAM R. |
LastName |
string |
Surname | TALBOT |
Address |
address |
位址 | 123 STREET ADDRESS YOUR CITY WA 99999-1234 |
DateOfBirth |
date |
生日 | 01/06/1958 |
DateOfExpiration |
date |
到期日 | 08/12/2020 |
DateOfIssue |
date |
核發日期 | 08/12/2012 |
EyeColor |
string |
眼球色彩 | 藍色 |
HairColor |
string |
頭髮顏色 | 棕色 |
Height |
string |
高 | 5'11" |
Weight |
string |
Weight | 185LB |
Sex |
string |
性別 | 月 |
idDocument.residencePermit
欄位 | 類型 | 描述 | 範例 |
---|---|---|---|
CountryRegion |
countryRegion |
國家或地區代碼 | USA |
DocumentNumber |
string |
居留證號碼 | WDLABCD456DG |
FirstName |
string |
名字和中間名 (如適用) | LIAM R. |
LastName |
string |
Surname | TALBOT |
DateOfBirth |
date |
生日 | 01/06/1958 |
DateOfExpiration |
date |
到期日 | 08/12/2020 |
DateOfIssue |
date |
核發日期 | 08/12/2012 |
Sex |
string |
性別 | 月 |
PlaceOfBirth |
string |
出生地 | 德國 |
Category |
string |
許可類別 | DV2 |
Address |
string |
位址 | 123 STREET ADDRESS YOUR CITY WA 99999-1234 |
idDocument.usSocialSecurityCard
欄位 | 類型 | 描述 | 範例 |
---|---|---|---|
DocumentNumber |
string |
社會安全卡號碼 | WDLABCD456DG |
FirstName |
string |
名字和中間名 (如適用) | LIAM R. |
LastName |
string |
Surname | TALBOT |
DateOfIssue |
date |
核發日期 | 08/12/2012 |
idDocument
欄位 | 類型 | 描述 | 範例 |
---|---|---|---|
Address |
address |
位址 | 123 STREET ADDRESS YOUR CITY WA 99999-1234 |
DocumentNumber |
string |
駕照號碼 | WDLABCD456DG |
FirstName |
string |
名字和中間名 (如適用) | LIAM R. |
LastName |
string |
Surname | TALBOT |
DateOfBirth |
date |
生日 | 01/06/1958 |
DateOfExpiration |
date |
到期日 | 08/12/2020 |
支援的文件類型
標識符檔模型目前支援美國駕駛執照和國際護照的傳記頁面(不包括簽證和其他旅行檔)擷取。
擷取的欄位
名稱 | 類型 | 描述 | 值 |
---|---|---|---|
國家/地區 | 國家/地區 | 符合 ISO 3166 標準的國碼 (地區碼) | "USA" |
DateOfBirth | date | YYYY-MM-DD 格式的 DOB | "1980-01-01" |
DateOfExpiration | date | YYYY-MM-DD 格式的到期日 | "2019-05-05" |
DocumentNumber | string | 相關的護照號碼、駕照號碼等等 | "340020013" |
FirstName | string | 擷取的名字和中間名 (如適用) | "JENNIFER" |
LastName | string | 擷取的姓氏 | "BROOKS" |
國籍 | 國家/地區 | 符合 ISO 3166 標準的國碼 (地區碼) | "USA" |
性別 | 性別 | 可能擷取的值包括 “M” “F” “X” | "F" |
MachineReadableZone | object | 擷取的護照 MRZ 包含兩行,各 44 個字元 | "P<USABROOKS<<JENNIFER<<<<<<<<<<<<<<<<<<<<<<< 3400200135USA8001014F1905054710000307<715816" |
DocumentType | string | 文件類型,例如,護照、駕照 | "passport" |
位址 | string | 擷取的地址 (僅限駕照) | "123 STREET ADDRESS YOUR CITY WA 99999-1234" |
區域 | string | 擷取區域、州、省等(僅限駕照) | "Washington" |
移轉指南
- 請遵循我們的文件智慧服務 v3.1 移轉指南,了解如何在應用程式和工作流程中使用 v3.0 版本。
下一步
嘗試使用 Document Intelligence Studio 處理您自己的表單和檔。
完成 Document Intelligence 快速入門,並開始以您選擇的開發語言來建立文件處理應用程式。
嘗試使用 檔智慧範例卷標工具來處理您自己的表單和檔。
完成 Document Intelligence 快速入門,並開始以您選擇的開發語言來建立文件處理應用程式。
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應