共用方式為


文件處理模型

重要

  • 文件智慧服務公開預覽版本可讓您搶先存取正在積極開發的功能。
  • 根據使用者意見反應,功能、方法和流程在正式發行 (GA) 前可能有所變更。
  • 文件智慧服務用戶端程式庫的公開預覽版本預設為 REST API 版本 2024-02-29-preview
  • 公開預覽版本 2024-02-29-preview 目前僅適用於下列 Azure 區域:
  • 美國東部
  • 美國西部 2
  • 西歐

此內容適用於:勾選記號 v4.0 (預覽版) | 舊版:blue-checkmark v3.1 (GA) blue-checkmark v3.0 (GA) blue-checkmark v2.1 (GA)

此內容適用於:勾選記號 v3.1 (GA) | 最新版本:purple-checkmark v4.0 (預覽版) | 舊版:blue-checkmark v3.0 blue-checkmark v2.1

此內容適用於:勾選記號 v3.0 (GA) | 最新版本:purple-checkmark v4.0 (預覽版) purple-checkmark v3.1 | 舊版:blue-checkmark v2.1

此內容適用於:勾選記號 v2.1 | 最新版本:blue-checkmark v4.0 (預覽版)

Azure AI 文件智慧支援各種不同的模型,可讓您將智慧型文件處理新增至應用程式和流程中。 您可以使用預建的網域特定模型,或定型專為特定商務需求和使用案例量身打造的自訂模型。 文件智慧服務可與 REST API 或 Python、C#、Java 和 JavaScript 用戶端程式庫搭配使用。

注意

  • 涉及財務資料、受保護的健康資料、個人資料或高度敏感性資料的文件處理專案需要小心注意。
  • 確保符合所有國家、地區和產業特定需求

模型概觀

下表顯示每個目前預覽和穩定 API 的可用模型:

模型類型 模型 2024-02-29-preview
2023-10-31-preview
2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
文件分析模型 讀取 ✔️ ✔️ ✔️ n/a
文件分析模型 版面配置 ✔️ ✔️ ✔️ ✔️
文件分析模型 一般文件 已移至版面配置** ✔️ ✔️ n/a
預建模型 合約 ✔️ ✔️ n/a n/a
預建模型 Health insurance card ✔️ ✔️ ✔️ n/a
預建模型 身分證明文件 ✔️ ✔️ ✔️ ✔️
預建模型 發票 ✔️ ✔️ ✔️ ✔️
預建模型 收據 ✔️ ✔️ ✔️ ✔️
預建模型 美國 1040 稅* ✔️ ✔️ n/a n/a
預建模型 美國 1098 稅* ✔️ n/a n/a n/a
預建模型 美國 1099 稅* ✔️ n/a n/a n/a
預建模型 美國 W2 稅 ✔️ ✔️ ✔️ n/a
預建模型 美國抵押貸款 1003 URLA ✔️ n/a n/a n/a
預建模型 美國抵押貸款 1008 摘要 ✔️ n/a n/a n/a
預建模型 美國抵押貸款結算披露 ✔️ n/a n/a n/a
預建模型 結婚證書 ✔️ n/a n/a n/a
預建模型 信用卡 ✔️ n/a n/a n/a
預建模型 名片 已取代 ✔️ ✔️ ✔️
自訂分類模型 自訂分類器 ✔️ ✔️ n/a n/a
自訂擷取模型 自訂神經 ✔️ ✔️ ✔️ n/a
Customextraction 模型 自訂範本 ✔️ ✔️ ✔️ ✔️
自訂擷取模型 自訂組成 ✔️ ✔️ ✔️ ✔️
所有模型 附加元件功能 ✔️ ✔️ n/a n/a

* - 包含子模型。 如需所支援的變化和子類型,請參閱模型特定資訊。

延遲

延遲是 API 伺服器處理傳入要求並將傳出回應傳遞給用戶端所需的時間。 分析文件的時間取決於大小 (例如頁數) 和每頁上的相關聯內容。 文件智慧服務是一種多租用戶服務,類似文件的延遲大致相當,但不一定相同。 在大規模處理影像和大型文件的微服務型無狀態、非同步服務之中,延遲和效能偶有變化是正常情況。 雖然我們會持續擴大硬體和容量和調整功能,但您可能仍會在執行階段上遇到延遲問題。

附加元件功能 附加元件/免費 2024-02-29-preview
&bullet [2023-10-31-preview](/rest/api/aiservices/operation-groups?view=rest-aiservices-2024-02-29-preview&preserve-view=true
2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
字型屬性擷取 附加元件 ✔️ ✔️ n/a n/a
公式擷取 附加元件 ✔️ ✔️ n/a n/a
高解析度擷取 附加元件 ✔️ ✔️ n/a n/a
條碼擷取 免費 ✔️ ✔️ n/a n/a
語言偵測 免費 ✔️ ✔️ n/a n/a
索引鍵/值組 免費 ✔️ n/a n/a n/a
查詢欄位 附加元件* ✔️ n/a n/a n/a

模型分析功能

Model ID 內容擷取 查詢欄位 段落 段落角色 選取標記 資料表 索引鍵/值組 語言 條碼 文件分析 公式* 樣式字型* 高解析度*
prebuilt-read O O O O O
prebuilt-layout O O O O O
prebuilt-document O O O O O
prebuilt-businessCard
預先建置合約 O O O O O
prebuilt-healthInsuranceCard.us O O O O O
prebuilt-idDocument O O O O O
prebuilt-invoice O O O O O O
prebuilt-receipt O O O O O
prebuilt-marriageCertificate.us O O O O O
prebuilt-creditCard O O O O O
prebuilt-mortgage.us.1003 O O O O O
prebuilt-mortgage.us.1008 O O O O O
prebuilt-mortgage.us.closingDisclosure O O O O O
prebuilt-tax.us.w2 O O O O O
prebuilt-tax.us.1098 O O O O O
prebuilt-tax.us.1098E O O O O O
prebuilt-tax.us.1098T O O O O O
prebuilt-tax.us.1099(variations) O O O O O
prebuilt-tax.us.1040(variations) O O O O O
{ customModelName } O O O O O

✓ - 啟用
O - 選用
* - 進階功能會產生額外費用

附加元件* - 查詢欄位的價格與其他附加元件功能不同。 如需詳細資料,請參閱定價

模型 說明
文件分析模型
讀取 OCR 擷取列印和手寫文字,包括字組、位置和偵測到的語言。
版面配置分析 擷取文字和文件版面配置元素,例如資料表、選取標記、標題、區段標題等。
預建模型
Health insurance card 從美國健保卡中擷取保險公司、成員、處方、群組編號和其他重要資訊,以自動化醫療保健流程。
美國稅賦文件模型 處理美國納稅表單,以擷取員工、雇主、薪資和其他資訊。
美國抵押貸款文件模型 處理美國抵押貸款表單,以擷取借款人貸款和財產資訊。
合約 擷取合約和當事人詳細資料。
發票 自動化發票。
收據 從收據擷取收據資料。
身分識別文件 (ID) 從美國駕照和國際護照擷取身分識別 (ID) 欄位。
名片 掃描名片,將重要欄位和資料擷取到您的應用程式。
自訂模型
自訂模型 (概觀) 從您企業專屬的表單和文件擷取資料。 自訂模型會針對相異資料與使用案例進行訓練。
自訂擷取模型 自訂範本模型會使用版面配置提示從文件擷取值,並適合從具有已定義視覺化範本的高度結構化文件擷取欄位。
● 會根據各種文件類型定型自訂類神經模型,以從結構化、半結構化和非結構化文件擷取欄位。
自訂分類模型 自訂分類模型可以將輸入檔中的每個頁面分類,以識別其中的文件,也可以識別輸入檔內的多個文件或單一文件的多個執行個體。
組成模型 將數個自訂模型結合成單一模型,以自動化處理各種檔案類型與單一組成模型。

週框方塊和多邊形座標

週框方塊 (v3.0 和更新版本中的 polygon) 是一個抽象矩形,會圍繞文件中的文字元素以作為物件偵測的參考點。

  • 週框方塊會使用以四個數值配對組陣列呈現的 x 和 y 座標平面來指定位置。 每個配對都代表方塊的角落,順序如下:左上角、右上角、右下角、左下角。

  • 影像座標會以像素為單位來呈現。 針對 PDF,座標會以英吋為單位來呈現。

對於名片模型以外的所有模型,文件智慧現在支援附加元件功能,以允許更複雜的分析。 您可以根據文件擷取的情節,啟用和停用這些選用功能。 有七個附加元件功能,可供 2023-07-31 (GA) 和更新的 API 版本使用:

語言支援

文件智慧服務中的深度學習型通用模型支援許多語言,可從您的影像和文件中擷取多語系文字,包括混合不同語言的文字行。 語言支援會因文件智慧服務功能而有所不同。 如需完整清單,請參閱下列文章:

區域可用性

文件智慧服務已在 60 個以上的 Azure 全域基礎結構區域 (英文) 中正式推出。

如需詳細資訊,請參閱 Azure 地理位置頁面,以協助選擇最適合您和您的客戶的區域。

模型詳細資料

本節描述您可以從每個模型預期的輸出。 您可以使用附加元件功能來擴充大部分模型的輸出。

讀取 OCR

讀取 API 會分析並擷取行、字組、位置、偵測的語言,以及手寫樣式 (如果有偵測到)。

使用 Document Intelligence Studio 處理的範例文件

螢幕擷取畫面:使用 Document Intelligence Studio「讀取」處理的文件範例螢幕擷取畫面

版面配置分析

版面配置分析模型會分析和擷取文字、資料表、選取標記和其他結構元素,例如標題、區段標題、頁首、頁尾等。

使用 Document Intelligence Studio 處理的範例文件

螢幕擷取畫面:使用 Document Intelligence Studio 處理的報紙頁面範例。

Health insurance card

健保卡模型結合功能強大的光學字元辨識 (OCR) 功能,以及深度學習模型,以便分析和擷取健保卡中的關鍵資訊。

使用 Document Intelligence Studio 處理的美國保健卡範例

在 Document Intelligence Studio 中美國健保卡分析範例的螢幕擷取畫面。

美國稅賦文件

美國稅賦文件模型會從選取的稅賦文件群組中分析並擷取重要欄位和明細項目。 API 支援分析各種格式和品質的美國英文稅賦文件,包括手機擷取的影像、掃描的文件,以及數位 PDF。 目前支援下列模式:

模型 描述 ModelID
美國稅 W-2 擷取可課稅的報酬詳細資料。 prebuilt-tax.us.W-2
美國稅 1040 擷取抵押貸款利息詳細資料。 prebuilt-tax.us.1040(variations)
美國稅 1098 擷取抵押貸款利息詳細資料。 prebuilt-tax.us.1098(variations)
美國稅 1099 擷取從雇主以外來源接收的收入。 prebuilt-tax.us.1099(variations)

使用 Document Intelligence Studio 處理的 W-2 範例文件

範例 W-2 的螢幕擷取畫面。

美國抵押貸款文件

美國抵押貸款文件模型會從選取的抵押貸款文件群組分析並擷取重要欄位,包括借款人、貸款和財產資訊。 API 支援分析各種格式和品質的美國英文抵押貸款文件,包括手機擷取的影像、掃描的文件,以及數位 PDF。 目前支援下列模式:

模型 描述 ModelID
1003 使用授權合約 (EULA) 擷取貸款、借款人、財產詳細資料。 prebuilt-mortgage.us.1003
1008 摘要文件 擷取借款人、放款人、財產、抵押貸款和承保詳細資料。 prebuilt-mortgage.us.1008
結算披露 擷取結算、交易成本和貸款詳細資料。 prebuilt-mortgage.us.closingDisclosure
結婚證書 擷取聯合貸款申請人的婚姻資訊詳細資料。 prebuilt-marriageCertificate
美國稅 W-2 擷取應納稅薪酬詳細資料以進行收入核實。 prebuilt-tax.us.W-2

使用文件智慧服務工作室處理的範例結算披露文件

範例結算披露的螢幕擷取畫面。

合約

合約模型會從合約協議中分析並擷取重要欄位和明細項目,包括當事人、司法管轄區、合約識別碼和職稱。 此模型目前支援英文合約格式。

使用文件智慧服務工作室處理的範例合約

使用文件智慧服務工作室擷取合約模型的螢幕擷取畫面。

發票

發票模型會自動處理發票,以擷取客戶姓名、帳單地址、到期日,以及應付金額、明細項目和其他重要資料。 此模型目前支援英文、西班牙文、德文、法文、義大利文、葡萄牙文和荷蘭文發票。

使用 Document Intelligence Studio 處理的發票範例

範例發票的螢幕擷取畫面。

收據

使用收據模型來掃描銷售收據中的商家名稱、日期、明細、數量,以及列印和手寫收據的總數。 v3.0 還可支援單頁旅館收據的處理。

使用 Document Intelligence Studio 處理的收據範例

範例收據的螢幕擷取畫面。

身分識別文件 (ID)

使用身分識別文件 (ID) 模型來處理美國駕照 (所有 50 州和哥倫比亞特區) 和國際護照的登載頁面 (排除簽證和其他旅行文件),以擷取重要欄位。

使用 Document Intelligence Studio 處理的美國駕照範例

範例身分證的螢幕擷取畫面。

結婚證書

使用結婚證書模型來處理美國結婚證書,以擷取包括個人、日期和地點的重要欄位。

使用文件智慧服務工作室處理的範例美國駕照

範例結婚證書的螢幕擷取畫面。

信用卡

使用信用卡模型來處理信用卡和轉帳卡以擷取重要欄位。

使用文件智慧服務工作室處理的範例信用卡

範例信用卡的螢幕擷取畫面。

自訂模型

自訂模型可以廣泛分類為兩種類型。 支援「文件類型」分類的自訂分類模型,以及可從特定文件類型擷取已定義結構描述的自訂擷取模型。

自訂模型類型和相關聯模型建置模式的圖表。

自訂文件模型會分析及擷取您特定商務表單和文件中的資料。 這些模型可辨識不同內容內的表單欄位,並擷取鍵值組和資料表資料。 您只需要一個表單類型範例,即可開始使用。

v3.0 版和更新版本的自訂模型支援自訂範本 (表單) 中的簽章偵測,以及範本和神經模型中的跨頁資料表。 簽章偵測會尋找簽章是否存在,而不是文件簽署人員的身分識別。 如果模型的簽章偵測傳回未簽署,則表示模型在定義的欄位中找不到簽章。

使用 Document Intelligence Studio 處理的自訂範本範例

文件智慧工具 analyze-a-custom-form 視窗的螢幕擷取畫面。

自訂擷取

自訂擷取模型可以是兩種類型之一:自訂範本自訂神經。 若要建立自訂擷取模型,您可以使用所要擷取的值來標記文件的資料集,並針對加上標籤的資料集定型模型。 您只需要五個相同表單或文件類型的範例,即可開始使用。

使用 Document Intelligence Studio 處理的自訂擷取範例

Document Intelligence Studio 中自訂擷取模型分析的螢幕擷取畫面。

自訂分類器

自訂分類模型可讓您在叫用擷取模型之前識別文件類型。 從 2023-07-31 (GA) API 開始便可使用分類模型。 定型自訂分類模型至少需要兩個不同的類別,而且每個類別至少需要五個範例。

組成模型

組成模型的建立方式是取得自訂模型的集合,並將其指派給您表單類型建置的單一模型。 您可以將多個自訂模型指派給使用單一模型識別碼所呼叫的組成模型。 您最多可以將 200 個已定型的自訂模型指派給單一組成模型。

Document Intelligence Studio 中組成模型對話方塊視窗

Document Intelligence Studio 組成自訂模型對話方塊視窗的螢幕擷取畫面。

輸入需求

  • 若要得到最佳結果,請為每個文件提供一張清晰的照片或高畫質的掃描檔案。

  • 支援的檔案格式:

    模型 PDF 影像:
    JPEG/JPG、PNG、BMP、TIFF、HEIF
    Microsoft Office:
    Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX)、HTML
    參閱
    版面配置 ✔ (2024-02-29-preview, 2023-10-31-preview)
    一般文件
    預建
    自訂擷取
    自訂分類 ✔ (2024-02-29-preview)
  • 若使用 PDF 和 TIFF,最多可處理 2000 頁 (若使用免費層訂閱,則只會處理前兩頁)。

  • 對於付費 (S0) 層,分析文件的檔案大小為 500 MB,對於免費 (F0) 層,則為 4 MB。

  • 影像維度必須介於 50 x 50 像素和 10,000 x 10,000 像素之間。

  • 如果您的 PDF 有密碼鎖定,則必須先移除鎖定才能提交。

  • 針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。 此尺寸在 150 點/英吋 (DPI) 時大約相當於 8 點文字。

  • 針對自訂模型定型,自訂範本模型的定型資料頁數上限為 500,而自訂神經網路模型的上限則為 50,000。

    • 針對自訂擷取模型定型,範本模型的定型資料大小總計為 50 MB,而神經模型的大小總計則為 1G-MB。

    • 針對自訂分類模型定型,定型資料的大小總計為 1GB (上限為 10,000 頁)。

注意

範例標記工具不支援 BMP 檔案格式。 這是工具的限制,而不是 Document Intelligence 服務的限制。

版本移轉

遵循文件智慧 3.1 版移轉指南,了解如何在應用程式中使用文件智慧 3.0 版

模型 說明
文件分析
版面配置 擷取文件的文字和版面配置資訊。
預先建置
發票 從英文和西班牙文發票擷取重要資訊。
收據 從英文收據擷取重要資訊。
身分證明文件 從美國駕照和國際護照擷取重要資訊。
名片 從英文名片擷取重要資訊。
自訂
自訂 從您企業專屬的表單和文件擷取資料。 自訂模型會針對相異資料與使用案例進行訓練。
組成 組成自訂模型的集合,並將其指派給由您表單類型組建的單一模型。

版面配置

版面配置 API 會分析及擷取文件的文字、資料表和標頭、選取標記和結構資訊。

使用範例標籤工具處理的範例文件

使用範例標記工具進行「版面配置」分析的螢幕擷取畫面。

發票

發票模型會分析並擷取銷售發票的重要資訊。 API 會分析各種格式的發票,並擷取客戶名稱、帳單地址、到期日和到期金額等重要資訊。

使用範例標籤工具處理的範例發票

使用範例標記工具進行範例發票分析的螢幕擷取畫面。

收據

  • 收據模型會分析並擷取列印和手寫銷售收據的重要資訊。

使用範例標籤工具處理的範例收據

範例收據的螢幕擷取畫面。

身分證明文件

身分證明文件模型會分析並擷取下列文件中的重要資訊:

  • 美式英文駕照 (所有 50 州和哥倫比亞特區)

  • 國際護照的簡歷頁面 (簽證和其他旅行文件除外)。 API 會分析身分證明文件並加以擷取

使用範例標籤工具處理的美國駕照範例

範例身分證的螢幕擷取畫面。

名片

名片模型會分析並擷取名片影像中的重要資訊。

使用範例標籤工具處理的範例名片

範例名片的螢幕擷取畫面。

自訂

  • 自訂模型會分析及擷取您特定商務表單和文件中的資料。 API 是一種機器學習程式,已經過定型,可辨識不同內容內的表單欄位,並擷取索引鍵/值組和資料表資料。 您只需要五個相同表單類型的範例就能開始使用,而且您的自訂模型要使用或不使用標記資料集來定型都可以。

使用範例標籤工具處理的範例自訂模型

文件智慧服務工具 analyze-a-custom-form 視窗的螢幕擷取畫面。

組成自訂模型

組成模型的建立方式是取得自訂模型的集合,並將其指派給您表單類型建置的單一模型。 您可以將多個自訂模型指派給使用單一模型識別碼所呼叫的組成模型。 您最多可以將 100 個已定型的自訂模型指派給單一組成模型。

使用範例標籤工具的組成模型對話視窗:

Document Intelligence Studio 組成自訂模型對話方塊視窗的螢幕擷取畫面。

模型資料擷取

模型 文字擷取 語言偵測 選取標記 表格 段落 段落角色 索引鍵/值組 欄位
版面配置
發票
收據
身分證明文件
商務名片
自訂表單

輸入需求

  • 若要得到最佳結果,請為每個文件提供一張清晰的照片或高畫質的掃描檔案。

  • 支援的檔案格式:

    模型 PDF 影像:
    JPEG/JPG、PNG、BMP、TIFF、HEIF
    Microsoft Office:
    Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX)、HTML
    參閱
    版面配置 ✔ (2024-02-29-preview, 2023-10-31-preview)
    一般文件
    預建
    自訂擷取
    自訂分類 ✔ (2024-02-29-preview)
  • 若使用 PDF 和 TIFF,最多可處理 2000 頁 (若使用免費層訂閱,則只會處理前兩頁)。

  • 對於付費 (S0) 層,分析文件的檔案大小為 500 MB,對於免費 (F0) 層,則為 4 MB。

  • 影像維度必須介於 50 x 50 像素和 10,000 x 10,000 像素之間。

  • 如果您的 PDF 有密碼鎖定,則必須先移除鎖定才能提交。

  • 針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。 此尺寸在 150 點/英吋 (DPI) 時大約相當於 8 點文字。

  • 針對自訂模型定型,自訂範本模型的定型資料頁數上限為 500,而自訂神經網路模型的上限則為 50,000。

    • 針對自訂擷取模型定型,範本模型的定型資料大小總計為 50 MB,而神經模型的大小總計則為 1G-MB。

    • 針對自訂分類模型定型,定型資料的大小總計為 1GB (上限為 10,000 頁)。

注意

範例標記工具不支援 BMP 檔案格式。 這是工具的限制,而不是 Document Intelligence 服務的限制。

版本移轉

您可以透過遵循文件智慧 3.1 版移轉指南,了解如何在應用程式中使用文件智慧 3.0 版

下一步