Share via


文件處理模型

重要

  • Document Intelligence 公開預覽版本提供早期存取作用中開發的功能。
  • 根據使用者意見反應,功能、方法和流程在正式發行 (GA) 前可能有所變更。
  • Document Intelligence 用戶端連結庫的公開預覽版本預設為 REST API 版本 2024-02-29-preview
  • 公開預覽版本 2024-02-29-preview 目前僅適用於下列 Azure 區域:
  • 美國東部
  • 美國西部 2
  • 西歐

此內容適用於:複選標記v4.0 (預覽) | 舊版:blue-checkmarkv3.1 (GA)blue-checkmarkv3.0 (GA)blue-checkmarkv2.1 (GA)

此內容適用於:複選標記v3.1 (GA) | 最新版本:紫色複選標記v4.0 (預覽) | 舊版:blue-checkmarkv3.0blue-checkmarkv2.1

此內容適用於:複選標記v3.0 (GA) | 最新版本:紫色複選標記v4.0 (預覽)紫色複選標記v3.1 | 舊版:blue-checkmarkv2.1

此內容適用於:複選標記v2.1 | 最新版本:blue-checkmarkv4.0(預覽)

Azure AI 文件智慧支援各種不同的模型,可讓您將智慧型文件處理新增至應用程式和流程中。 您可以使用預先建置的領域特定模型,或定型專為特定商務需求和使用案例量身打造的自定義模型。 檔智慧可以搭配 REST API 或 Python、C#、Java 和 JavaScript 用戶端連結庫使用。

模型概觀

下表顯示每個目前預覽和穩定 API 的可用模型:

模型類型 模型 2024-02-29-preview
&bullet 2023-10-31-preview
2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
文件分析模型 讀取 ✔️ ✔️ ✔️ n/a
文件分析模型 版面配置 ✔️ ✔️ ✔️ ✔️
文件分析模型 一般文件 已移至版面配置** ✔️ ✔️ n/a
預建模型 合約 ✔️ ✔️ n/a n/a
預建模型 健保卡 ✔️ ✔️ ✔️ n/a
預建模型 身分證明文件 ✔️ ✔️ ✔️ ✔️
預建模型 發票 ✔️ ✔️ ✔️ ✔️
預建模型 收據 ✔️ ✔️ ✔️ ✔️
預建模型 美國 1040 稅金* ✔️ ✔️ n/a n/a
預建模型 美國 1098 稅金* ✔️ n/a n/a n/a
預建模型 美國 1099 稅金* ✔️ n/a n/a n/a
預建模型 美國 W2 稅金 ✔️ ✔️ ✔️ n/a
預建模型 美國抵押貸款 1003 URLA ✔️ n/a n/a n/a
預建模型 美國抵押貸款 1008 摘要 ✔️ n/a n/a n/a
預建模型 美國抵押貸款收盤披露 ✔️ n/a n/a n/a
預建模型 結婚證 ✔️ n/a n/a n/a
預建模型 信用卡 ✔️ n/a n/a n/a
預建模型 名片 已取代 ✔️ ✔️ ✔️
自訂分類模型 自訂分類器 ✔️ ✔️ n/a n/a
自定義擷取模型 自訂神經 ✔️ ✔️ ✔️ n/a
Customextraction 模型 自訂範本 ✔️ ✔️ ✔️ ✔️
自定義擷取模型 自訂撰寫 ✔️ ✔️ ✔️ ✔️
所有模型 附加元件功能 ✔️ ✔️ n/a n/a

* - 包含子模型。 如需支持的變化和子類型,請參閱模型特定資訊。

附加元件功能 附加元件/免費 2024-02-29-preview
&bullet [2023-10-31-preview](/rest/api/aiservices/operation-groups?view=rest-aiservices-2024-02-29-preview&preserve-view=true
2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
字型屬性擷取 附加元件 ✔️ ✔️ n/a n/a
公式擷 附加元件 ✔️ ✔️ n/a n/a
高解析度擷取 附加元件 ✔️ ✔️ n/a n/a
條碼擷取 免費 ✔️ ✔️ n/a n/a
語言偵測 免費 ✔️ ✔️ n/a n/a
索引鍵值組 免費 ✔️ n/a n/a n/a
查詢欄位 附加元件* ✔️ n/a n/a n/a

模型分析功能

Model ID 內容擷 查詢欄位 段落 段落角色 選取標記 資料表 索引鍵/值組 語言 條碼 檔分析 公式* 樣式字型* 高解析度*
prebuilt-read O O O O O
prebuilt-layout O O O O O
prebuilt-document O O O O O
prebuilt-businessCard
預先建置合約 O O O O O
prebuilt-healthInsuranceCard.us O O O O O
prebuilt-idDocument O O O O O
預建發票 O O O O O O
prebuilt-receipt O O O O O
prebuilt-marriageCertificate.us O O O O O
prebuilt-creditCard O O O O O
prebuilt-mortgage.us.1003 O O O O O
prebuilt-mortgage.us.1008 O O O O O
prebuilt-mortgage.us.closingDisclosure O O O O O
prebuilt-tax.us.w2 O O O O O
prebuilt-tax.us.1098 O O O O O
prebuilt-tax.us.1098E O O O O O
prebuilt-tax.us.1098T O O O O O
prebuilt-tax.us.1099(變化) O O O O O
prebuilt-tax.us.1040(變化) O O O O O
{ customModelName } O O O O O

✓ - 已啟用
O - 選擇性
* - 進階版 功能會產生額外費用

附加元件* - 查詢欄位的價格與其他附加元件功能不同。 如需詳細資訊,請參閱 定價

模型 說明
文件分析模型
讀取 OCR 擷取列印和手寫文字,包括文字、位置和偵測到的語言。
版面配置分析 擷取文字和檔版面配置元素,例如表格、選取標記、標題、區段標題等等。
預建模型
健保卡 從美國健康保險卡擷取保險公司、成員、處方、組號和其他重要資訊,將醫療保健程序自動化。
美國稅務檔模型 處理美國稅務表格,以擷取員工、僱主、工資和其他資訊。
美國抵押貸款檔模型 處理美國抵押貸款表格,以提取借款人貸款和財產資訊。
合約 擷取合約和合作對象詳細數據。
發票 自動化發票。
收據 從收據擷取收據資料。
身分識別檔(識別碼) 從美國駕駛執照和國際護照中擷取身分識別 (ID) 字段。
名片 掃描名片,以將關鍵字段和數據擷取到您的應用程式。
自訂模型
自訂模型 (概觀) 從您企業專屬的表單和檔中擷取數據。 自定義模型會針對不同的數據和使用案例進行定型。
自訂擷取模型 自定義範本模型 會使用版面配置提示從檔擷取值,並適合從具有已定義可視化範本的高度結構化檔擷取欄位。
自定義類神經模型 會在各種文件類型上定型,以從結構化、半結構化和非結構化檔擷取字段。
自訂分類模型 自定義 分類模型 可以分類輸入檔中的每個頁面,以識別內的檔,也可以識別輸入檔內單一檔或多個文件實例。
撰寫的模型 將數個自定義模型結合成單一模型,以自動化處理各種檔類型與單一撰寫模型。

對於名片模型以外的所有模型,文件智慧現在支援附加元件功能,以允許更複雜的分析。 您可以根據文件擷取的情節,啟用和停用這些選用功能。 有七項附加元件功能可供 2023-07-31 (GA) 和更新版本的 API 版本使用:

模型詳細資料

本節說明您可以從每個模型預期的輸出。 請注意,您可以使用附加元件功能來擴充大部分模型的輸出。

讀取 OCR

讀取 API 會分析並擷取行、字組、位置、偵測的語言,以及手寫樣式 (如果有偵測到)。

使用 Document Intelligence Studio 處理的範例文件

螢幕擷取畫面:使用 Document Intelligence Studio「讀取」處理的文件範例螢幕擷取畫面

版面配置分析

版面配置分析模型會分析及擷取文字、數據表、選取標記和其他結構元素,例如標題、區段標題、頁首、頁尾等等。

使用 Document Intelligence Studio 處理的範例文件

螢幕擷取畫面:使用 Document Intelligence Studio 處理的報紙頁面範例。

Health insurance card

健保卡模型結合功能強大的光學字元辨識 (OCR) 功能,以及深度學習模型,以便分析和擷取健保卡中的關鍵資訊。

使用 Document Intelligence Studio 處理的美國保健卡範例

在 Document Intelligence Studio 中美國健保卡分析範例的螢幕擷取畫面。

美國稅務檔

美國稅務檔模型會從選取的稅務檔群組中分析並擷取關鍵欄位和明細專案。 API 支援分析各種格式和品質的英文美國稅務檔,包括手機擷取的影像、掃描的檔和數位 PDF。 目前支援下列模型:

模型 描述 ModelID
美國稅務 W-2 擷取可課稅的報酬詳細資料。 prebuilt-tax.us.W-2
美國稅金 1040 擷取抵押貸款利息詳細數據。 prebuilt-tax.us.1040(變化)
美國稅金 1098 擷取抵押貸款利息詳細數據。 prebuilt-tax.us.1098(變化)
美國稅金 1099 從僱主以外的來源那裡獲得的收入。 prebuilt-tax.us.1099(變化)

使用 Document Intelligence Studio 處理的 W-2 範例文件

範例 W-2 的螢幕快照。

美國抵押貸款檔

美國抵押貸款檔模型會分析並擷取主要欄位,包括借款人、貸款和財產資訊,從一組選取的抵押貸款檔。 API 支援分析各種格式和品質的英文美國抵押貸款檔,包括手機擷取的影像、掃描的檔和數位 PDF。 目前支援下列模型:

模型 描述 ModelID
1003 最終使用者許可協定 (EULA) 擷取貸款、借款人、物業詳細數據。 prebuilt-mortgage.us.1003
1008 摘要檔 擷取借款人、賣方、財產、抵押貸款和承銷細節。 prebuilt-mortgage.us.1008
關閉洩漏 擷取收盤、交易成本和貸款詳細數據。 prebuilt-mortgage.us.closingDisclosure
結婚證 擷取聯合貸款申請人的婚姻資訊詳細數據。 prebuilt-marriageCertificate
美國稅務 W-2 擷取收入驗證的應納稅補償詳細數據。 prebuilt-tax.us.W-2

使用 Document Intelligence Studio 處理的關閉披露文件範例:

範例關閉披露的螢幕快照。

合約

合約模型會從合約合約中分析並擷取主要欄位和明細專案,包括當事人、司法管轄區、合約標識符和標題。 此模型目前支援英文合約檔。

使用 Document Intelligence Studio 處理的範例合約:

使用 Document Intelligence Studio 擷取合約模型螢幕快照。

發票

發票模型會自動處理發票,以擷取客戶名稱、帳單位址、到期日,以及到期日、明細專案和其他密鑰數據。 此模型目前支援英文、西班牙文、德文、法文、義大利文、葡萄牙文和荷蘭發票。

使用 Document Intelligence Studio 處理的發票範例

範例發票的螢幕快照。

收據

使用收據模型掃描銷售收據,以取得印刷和手寫收據中的商家名稱、日期、明細專案、數量和總計。 3.0 版也支援單頁旅館收據處理。

使用 Document Intelligence Studio 處理的收據範例

範例收據的螢幕快照。

身分識別檔(識別碼)

使用身分識別檔(標識符)模型來處理美國駕駛執照(所有50個州和哥倫比亞特區)和國際護照(不包括簽證和其他旅行證件)的傳記頁面,以擷取關鍵欄位。

使用 Document Intelligence Studio 處理的美國駕照範例

範例標識碼的螢幕快照。

結婚證

使用婚姻證模型來處理美國結婚證,以擷取包括個人、日期和地點在內的關鍵字段。

使用 Document Intelligence Studio 處理的美國婚姻證明範例:

範例結婚證的螢幕快照。

信用卡

使用信用卡模型來處理信用卡和轉帳卡以擷取密鑰字段。

使用 Document Intelligence Studio 處理的信用卡範例:

範例信用卡的螢幕快照。

自訂模型

自定義模型可廣泛分類為兩種類型。 支援「檔案類型」分類的自定義分類模型,以及可從特定文件類型擷取已定義架構的自定義擷取模型。

自定義模型類型和相關聯模型建置模式的圖表。

自定義檔模型會分析及擷取您商務專屬表單和文件的數據。 這些模型已經過定型,可辨識不同內容內的表單欄位,並擷取機碼值組和資料表資料。 您只需要一個表單類型的範例即可開始使用。

v3.0 版自定義模型支援範本和類神經網路模型中自定義範本 (form) 和跨頁面數據表中的簽章偵測。

使用 Document Intelligence Studio 處理的自訂範本範例

文件智慧工具 analyze-a-custom-form 視窗的螢幕擷取畫面。

自訂擷取

自訂擷取模型可以是兩種類型之一:自訂範本自訂神經。 若要建立自訂擷取模型,您可以使用所要擷取的值來標記文件的資料集,並針對加上標籤的資料集定型模型。 您只需要五個相同表單或檔案類型的範例即可開始使用。

使用 Document Intelligence Studio 處理的自訂擷取範例

Document Intelligence Studio 中自訂擷取模型分析的螢幕擷取畫面。

自訂分類器

自定義分類模型可讓您在叫用擷取模型之前識別檔類型。 分類模型可從 API 開始 2023-07-31 (GA) 使用。 定型自訂分類模型至少需要兩個不同的類別,而且每個類別至少需要五個範例。

組成模型

撰寫的模型是藉由取得自定義模型的集合,並將其指派給從窗體類型建置的單一模型來建立。 您可以將多個自定義模型指派給具有單一模型標識碼的撰寫模型。 您最多可以將 200 個已定型的自訂模型指派給單一組成模型。

Document Intelligence Studio 中組成模型對話方塊視窗

Document Intelligence Studio 組成自訂模型對話方塊視窗的螢幕擷取畫面。

輸入需求

  • 若要得到最佳結果,請為每個文件提供一張清晰的照片或高畫質的掃描檔案。

  • 支援的檔案格式:

    模型 PDF 圖片:
    JPEG/JPG、PNG、BMP、TIFF、HEIF
    Microsoft Office:
    Word(DOCX)、Excel(XLSX)、PowerPoint(PPTX)和 HTML
    參閱
    版面配置 ✔ (2024-02-29-preview, 2023-10-31-preview)
    一般文件
    預建
    自訂擷取
    自訂分類 ✔ (2024-02-29-preview)
  • 若使用 PDF 和 TIFF,最多可處理 2000 頁 (若使用免費層訂閱,則只會處理前兩頁)。

  • 用於分析文件的檔案大小是付費 (S0) 層的 500 MB,免費 #F0 層為 4 MB。

  • 影像維度必須介於 50 x 50 像素和 10,000 x 10,000 像素之間。

  • 如果您的 PDF 有密碼鎖定,則必須先移除鎖定才能提交。

  • 針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。 此尺寸在 150 點/英吋 (DPI) 時大約相當於 8 點文字。

  • 針對自訂模型定型,自訂範本模型的定型資料頁數上限為 500,而自訂神經網路模型的上限則為 50,000。

    • 針對自訂擷取模型定型,範本模型的定型資料大小總計為 50 MB,而神經模型的大小總計則為 1G-MB。

    • 針對自訂分類模型定型,定型資料的大小總計為 1GB (上限為 10,000 頁)。

注意

範例 標籤工具 不支援 BMP 檔案格式。 這是工具的限制,而不是 Document Intelligence 服務的限制。

版本移轉

遵循文件智慧 3.1 版移轉指南,了解如何在應用程式中使用文件智慧 3.0 版

模型 說明
檔分析
版面配置 從檔擷取文字和版面配置資訊。
預先建置
發票 從英文和西班牙文發票擷取重要資訊。
收據 從英文收據擷取重要資訊。
身分證明文件 從美國駕駛執照和國際護照中擷取重要資訊。
名片 從英文名片擷取重要資訊。
自訂
自訂 從您企業專屬的表單和檔中擷取數據。 自定義模型會針對不同的數據和使用案例進行定型。
撰寫自定義模型的集合,並將其指派給從窗體類型建置的單一模型。

版面配置

版面配置 API 會分析及擷取檔中的文字、數據表和標頭、選取標記和結構資訊。

使用 範例標籤工具處理的範例檔:

使用範例卷標工具進行「版面配置」分析的螢幕快照。

發票

發票模型會分析並擷取銷售發票的重要資訊。 API 會以各種格式分析發票,並擷取客戶名稱、帳單位址、到期日和到期金額等重要資訊。

使用 範例卷標工具處理的範例發票:

使用範例卷標工具的範例發票分析螢幕快照。

收據

  • 收據模型會分析並擷取列印和手寫銷售收據中的重要資訊。

使用 範例標籤工具處理的範例收據:

範例收據的螢幕快照。

身分證明文件

識別碼檔模型會分析並擷取下列檔中的重要資訊:

  • 美國駕駛執照(所有50個州和哥倫比亞特區)

  • 國際護照的傳記頁面(不包括簽證和其他旅行檔)。 API 會分析身分識別檔和擷取

使用 範例卷標工具處理的美國駕照範例:

範例標識碼的螢幕快照。

名片

名片模型會從名片影像分析並擷取重要資訊。

使用 範例標籤工具處理的範例名片:

範例名片的螢幕快照。

自訂

  • 自定義模型會分析及擷取您企業專屬表單和文件的數據。 API 是經過定型的機器學習程式,可辨識不同內容內的表單域,並擷取索引鍵/值組和數據表數據。 您只需要五個相同窗體類型的範例即可開始使用,而且您的自定義模型可以使用或不使用加上標籤的數據集來定型。

使用 範例標籤工具範例自訂模型處理:

文件智慧服務工具 analyze-a-custom-form 視窗的螢幕擷取畫面。

撰寫的自定義模型

撰寫的模型是藉由取得自定義模型的集合,並將其指派給從窗體類型建置的單一模型來建立。 您可以將多個自定義模型指派給具有單一模型標識碼的撰寫模型。 您最多可以將 100 個已定型的自訂模型指派給單一組成模型。

使用 範例標籤工具撰寫的模型對話框視窗:

Document Intelligence Studio 組成自訂模型對話方塊視窗的螢幕擷取畫面。

模型數據擷取

模型 文字擷 語言偵測 選取標記 表格 段落 段落角色 索引鍵/值組 欄位
版面配置
發票
收據
標識碼檔
名片
自訂表單

輸入需求

  • 若要得到最佳結果,請為每個文件提供一張清晰的照片或高畫質的掃描檔案。

  • 支援的檔案格式:

    模型 PDF 圖片:
    JPEG/JPG、PNG、BMP、TIFF、HEIF
    Microsoft Office:
    Word(DOCX)、Excel(XLSX)、PowerPoint(PPTX)和 HTML
    參閱
    版面配置 ✔ (2024-02-29-preview, 2023-10-31-preview)
    一般文件
    預建
    自訂擷取
    自訂分類 ✔ (2024-02-29-preview)
  • 若使用 PDF 和 TIFF,最多可處理 2000 頁 (若使用免費層訂閱,則只會處理前兩頁)。

  • 用於分析文件的檔案大小是付費 (S0) 層的 500 MB,免費 #F0 層為 4 MB。

  • 影像維度必須介於 50 x 50 像素和 10,000 x 10,000 像素之間。

  • 如果您的 PDF 有密碼鎖定,則必須先移除鎖定才能提交。

  • 針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。 此尺寸在 150 點/英吋 (DPI) 時大約相當於 8 點文字。

  • 針對自訂模型定型,自訂範本模型的定型資料頁數上限為 500,而自訂神經網路模型的上限則為 50,000。

    • 針對自訂擷取模型定型,範本模型的定型資料大小總計為 50 MB,而神經模型的大小總計則為 1G-MB。

    • 針對自訂分類模型定型,定型資料的大小總計為 1GB (上限為 10,000 頁)。

注意

範例 標籤工具 不支援 BMP 檔案格式。 這是工具的限制,而不是 Document Intelligence 服務的限制。

版本移轉

您可以透過遵循文件智慧 3.1 版移轉指南,了解如何在應用程式中使用文件智慧 3.0 版

下一步