檔智能發票模型
重要
- Document Intelligence 公開預覽版本提供早期存取作用中開發的功能。
- 根據使用者意見反應,功能、方法和流程在正式發行 (GA) 前可能有所變更。
- Document Intelligence 用戶端連結庫的公開預覽版本預設為 REST API 版本 2024-02-29-preview。
- 公開預覽版本 2024-02-29-preview 目前僅適用於下列 Azure 區域:
- 美國東部
- 美國西部 2
- 西歐
此內容適用於:v4.0 (預覽) | 舊版:v3.1 (GA)v3.0 (GA)v2.1 (GA)
此內容適用於:v2.1 | 最新版本:v4.0(預覽)
Document Intelligence 發票模型會使用功能強大的光學字元辨識 (OCR) 功能,從銷售發票、公用程式帳單和採購單中分析及擷取關鍵字段和明細專案。 發票的格式與品質有各種類型,包括手機擷取的影像、掃描文件與數位 PDF。 API 會分析發票文字,擷取如客戶名稱、帳單地址、到期日和到期金額等重要資訊,以及傳回結構化 JSON 資料表示。 此模型目前支援 27 種語言的發票。
支援的文件類型:
- 發票
- 公用事業帳單
- 銷售訂單
- 採購單
自動化發票處理
自動化發票處理是從帳單帳戶文件擷取主要應付帳款欄位的程序。 擷取的資料包括發票的明細項目,這些發票已與應付帳款 (AP) 工作流程整合以供檢閱和付款。 在過去,應付賬款程式會手動執行,因此非常耗時。 從發票中精確擷取主要資料通常是發票自動化程序中的第一個且最重要的步驟之一。
使用 Document Intelligence Studio 處理的範例發票:
使用 文件智慧範例卷標工具處理的範例發票:
開發選項
Document Intelligence v4.0 (2024-02-29-preview, 2023-10-31-preview) 支援下列工具、應用程式和連結庫:
功能 | 資源 | Model ID |
---|---|---|
發票模型 | • Document Intelligence Studio • REST API • C# SDK• Python SDK • Java SDK • JavaScript SDK |
prebuilt-invoice |
Document Intelligence v3.1 支援下列工具、應用程式和連結庫:
功能 | 資源 | Model ID |
---|---|---|
發票模型 | • Document Intelligence Studio • REST API • C# SDK• Python SDK • Java SDK • JavaScript SDK |
prebuilt-invoice |
Document Intelligence v3.0 支援下列工具、應用程式和連結庫:
功能 | 資源 | Model ID |
---|---|---|
發票模型 | • Document Intelligence Studio • REST API • C# SDK• Python SDK • Java SDK • JavaScript SDK |
prebuilt-invoice |
Document Intelligence v2.1 支援下列工具、應用程式和連結庫:
功能 | 資源 |
---|---|
發票模型 | • 文件智慧標籤工具 • REST API • 用戶端連結庫 SDK • Document Intelligence Docker 容器 |
輸入需求
若要得到最佳結果,請為每個文件提供一張清晰的照片或高畫質的掃描檔案。
支援的檔案格式:
模型 PDF 圖片:
JPEG/JPG、PNG、BMP、TIFF、HEIFMicrosoft Office:
Word(DOCX)、Excel(XLSX)、PowerPoint(PPTX)和 HTML參閱 ✔ ✔ ✔ 版面配置 ✔ ✔ ✔ (2024-02-29-preview, 2023-10-31-preview) 一般文件 ✔ ✔ 預建 ✔ ✔ 自訂擷取 ✔ ✔ 自訂分類 ✔ ✔ ✔ (2024-02-29-preview) 若使用 PDF 和 TIFF,最多可處理 2000 頁 (若使用免費層訂閱,則只會處理前兩頁)。
用於分析文件的檔案大小是付費 (S0) 層的 500 MB,免費 #F0 層為 4 MB。
影像維度必須介於 50 x 50 像素和 10,000 x 10,000 像素之間。
如果您的 PDF 有密碼鎖定,則必須先移除鎖定才能提交。
針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。 此尺寸在 150 點/英吋 (DPI) 時大約相當於
8
點文字。針對自訂模型定型,自訂範本模型的定型資料頁數上限為 500,而自訂神經網路模型的上限則為 50,000。
針對自訂擷取模型定型,範本模型的定型資料大小總計為 50 MB,而神經模型的大小總計則為 1G-MB。
針對自訂分類模型定型,定型資料的大小總計為
1GB
(上限為 10,000 頁)。
- 支援的檔案格式:JPEG、PNG、PDF 和 TIFF。
- 支援的 PDF 和 TIFF 最多處理 2,000 頁。 若是免費層訂閱者,只會處理前兩頁。
- 支援的檔案大小必須小於 50 MB,且尺寸至少為 50 x 50 像素,且最多 10,000 x 10,000 像素。
發票模型數據擷取
了解如何從發票擷取資料,包括客戶資訊、廠商詳細資料與明細項目。 您需要下列資源:
Azure 訂用帳戶-您可以 免費建立一個訂用帳戶。
Azure 入口網站中的 Document Intelligence 執行個體。 您可以使用免費定價層 (
F0
) 來試用服務。 部署資源後,選取 [前往資源] 以取得金鑰和端點。
在 [Document Intelligence Studio] 首頁上,選取 [發票]。
您可以分析範例發票,或上傳您自己的檔案。
選取 [ 執行分析] 按鈕,並視需要設定 [分析] 選項 :
試用文件智慧服務工作室 (英文)
文件智慧服務範例標籤工具
在範例工具首頁上,選取 [使用預建模型來取得資料] 圖格。
從下拉式功能表選取要分析的 [表單類型]。
從下列選項中選擇您想要分析的檔案 URL:
在 [來源] 欄位中,從下拉式功能表中選取 [URL],貼上選取的 URL,然後選取 [擷取] 按鈕。
在 [文件智慧服務端點] 欄位中,貼上您透過文件智慧服務訂用帳戶取得的端點。
在 [金鑰] 欄位中,貼上您從文件智慧服務資源取得的金鑰。
選取 [Run analysis] (執行分析)。 Document Intelligence 範例標籤工具會呼叫分析預建 API 並分析文件。
檢視結果 - 查看擷取的索引鍵/值組、行專案、已擷取的醒目提示文字,以及偵測到的數據表。
注意
範例標記工具不支援 BMP 檔案格式。 這是工具的限制,而不是 Document Intelligence 服務的限制。
支援的語言和地區設定
如需支援語言的完整清單,請參閱 我們的 語言支援 — 預先建置的模型 頁面。
欄位擷取
名稱 | 類型 | 描述 | 標準化輸出 |
---|---|---|---|
CustomerName | 字串 | 發票客戶 | Microsoft Corp |
CustomerId | 字串 | 客戶參考 ID | CID-12345 |
PurchaseOrder | 字串 | 購買訂單參考編號 | PO-3333 |
InvoiceId | 字串 | 此特定發票的識別碼(通常是發票號碼) | INV-100 |
InvoiceDate | date | 發票發行日期 | mm-dd-yyyy |
到期日期 | date | 此發票的日期付款到期 | mm-dd-yyyy |
VendorName | 字串 | 建立此發票的廠商 | CONTOSO LTD. |
VendorAddress | address | 廠商郵寄地址 | 123 456th St, 紐約, NY 10001 |
VendorAddressRecipient | string | 與 VendorAddress 相關聯的名稱 | Contoso Headquarters |
CustomerAddress | address | 客戶的郵寄地址 | 123 其他聖, 雷德蒙德瓦, 98052 |
BillingAddressRecipient | string | 與 CustomerAddress 相關聯的名稱 | Microsoft Corp |
BillingAddress | address | 客戶的正確帳單位址 | 123 比爾街, 雷德蒙德瓦, 98052 |
BillingAddressRecipient | string | 與 BillingAddress 相關聯的名稱 | Microsoft 服務 |
ShippingAddress | address | 客戶的正確出貨地址 | 123 船街, 雷德蒙德瓦, 98052 |
BillingAddressRecipient | string | 與出貨地址相關聯的名稱 | Microsoft Delivery |
小計總計 | currency | 此發票上指明的小計欄位 | $100.00 |
TotalDiscount | currency | 套用至發票的總折扣 | $5.00 |
TotalTax | currency | 此發票上指明的稅金總計欄位 | $10.00 |
InvoiceTotal | currency | 與此發票相關聯的新費用總計 | $10.00 |
AmountDue | currency | 因廠商而產生的金額總計 | $610 |
PreviousUnpaidBalance | currency | 明確的之前未付餘額 | $500.00 |
RemittanceAddress | address | 客戶的正確匯款或付款地址 | 123 Remit St New York, NY, 10001 |
RemittanceAddressRecipient | string | 與 RemittanceAddress 相關聯的名稱 | Contoso Billing |
ServiceAddress | address | 客戶的正確服務地址或資產地址 | 123 服務街, 雷德蒙德瓦, 98052 |
BillingAddressRecipient | string | 與 ServiceAddress 相關聯的名稱 | Microsoft 服務 |
ServiceStartDate | date | 服務期間的第一個日期 (例如,水電費帳單服務期間) | mm-dd-yyyy |
ServiceEndDate | date | 服務期間的結束日期 (例如,水電費帳單服務期間) | mm-dd-yyyy |
VendorTaxId | 字串 | 與廠商相關聯的稅賦編號 | 123456-7 |
CustomerTaxId | 字串 | 與客戶相關聯的稅賦編號 | 765432-1 |
PaymentTerm | 字串 | 發票付款條款 | Net90 |
KVKNumber | 字串 | 在荷蘭註冊的企業的唯一標識碼(僅限 NL) | 12345678 |
CurrencyCode | 字串 | 與擷取金額相關聯的貨幣代碼 | |
PaymentDetails | 陣列 | 儲存付款選項詳細資料的陣列,例如IBAN 、SWIFT 、、 BPayBillerCode(AU) BPayReference(AU) |
|
TaxDetails | 陣列 | 數位,包含金額和費率等稅務詳細數據 | |
TaxDetails | 陣列 | 保存新增稅務資訊的陣列,例如 CGST 、IGST 和 SGST 。 此明細專案目前僅適用於德國()、西班牙(de es )、葡萄牙(pt )和英文加拿大(en-CA ) 地區設定 |
明細項目數位
以下是從 JSON 輸出回應中發票擷取的明細專案(下列輸出會使用此 範例發票:
名稱 | 類型 | 描述 | 值 (標準化輸出) |
---|---|---|---|
總數 | currency | 商品明細金額 | $60.00 |
Date | date | 對應至每個商品明細的日期。 通常是出貨商品明細的日期 | 3/4/2021 |
描述 | string | 發票商品明細的文字描述 | 諮詢服務 |
數量 | 數值 | 此發票商品明細的數量 | 2 |
ProductCode | string | 與特定商品明細相關聯的產品編號、產品名稱或 SKU | A123 |
稅額 | currency | 與每個商品明細相關聯的稅金。 可能的值包括稅額與稅金 Y/N | 美金 $6.00 元 |
TaxRate | 字串 | 與每個商品明細相關聯的稅率。 | 18% |
單位 | string | 商品明細的單位,例如 kg、lb 等。 | 小時 |
UnitPrice | 數值 | 此商品一個單位的淨價格或總價格 (依據發票的總計發票設定而定) | $30.00 |
擷取的發票機碼值組和商品明細位於 JSON 輸出的 documentResults
區段中。
索引鍵/值組
預先建置的發票 2022-06-30 和更新版本支援選擇性傳回機碼值組。 根據預設,會停用索引鍵/值組的傳回。 機碼值組是發票的特定範圍,可辨別標籤或索引碼,以及與其相關聯的回應或值。 在發票中,這些組可以是標籤,以及使用者針對該欄位或電話號碼輸入的值。 AI 模型已定型,可根據各種不同的檔案類型、格式和結構來擷取可識別的索引碼和值。
若模型偵測到索引鍵存在,且沒有相關聯的值或處理選用欄位時,索引鍵也可以單獨存在。 例如,某些實例中的窗體上可以保留空白的中間名字段。 索引鍵/值組一律是檔中所包含的文字範圍。 若是文件對相同的值有不同的描述方式,例如客戶/使用者,則相關聯的關鍵為客戶或使用者,視前後文而定。
擷取的欄位
發票服務會擷取文字、資料表和 26 個發票欄位。 以下為從 JSON 輸出回應的發票中所擷取的欄位 (下列輸出會使用此發票範例)。
名稱 | 類型 | 描述 | Text | 值 (標準化輸出) |
---|---|---|---|---|
CustomerName | string | 被開立發票的客戶 | Microsoft Corp | |
CustomerId | string | 該客戶的參考識別碼 | CID-12345 | |
PurchaseOrder | string | 購買訂單參考編號 | PO-3333 | |
InvoiceId | string | 此特定發票的識別碼 (通常稱「發票編號」) | INV-100 | |
InvoiceDate | date | 發票發行日期 | 11/15/2019 | 2019-11-15 |
到期日期 | date | 此發票的付款日期已到期 | 2019/12/15 | 2019-12-15 |
VendorName | 字串 | 建立發票的廠商 | CONTOSO | |
VendorAddress | string | 廠商的郵寄地址 | 123 456th St New York, NY, 10001 | |
VendorAddressRecipient | string | 與 VendorAddress 相關聯的名稱 | Contoso Headquarters | |
CustomerAddress | string | 客戶的郵寄地址 | 123 其他街, 雷德蒙德, 華盛頓, 98052 | |
BillingAddressRecipient | string | 與 CustomerAddress 相關聯的名稱 | Microsoft Corp | |
BillingAddress | string | 客戶的正確帳單位址 | 123 比爾街, 雷德蒙德, 華盛頓, 98052 | |
BillingAddressRecipient | string | 與 BillingAddress 相關聯的名稱 | Microsoft 服務 | |
ShippingAddress | string | 客戶的正確出貨地址 | 123 船街, 雷德蒙德, 華盛頓, 98052 | |
BillingAddressRecipient | string | 與出貨地址相關聯的名稱 | Microsoft Delivery | |
小計總計 | 數值 | 此發票上指明的小計欄位 | $100.00 | 100 |
TotalTax | 數值 | 此發票上指明的稅金總計欄位 | $10.00 | 10 |
InvoiceTotal | 數值 | 與此發票相關聯的新費用總計 | $110.00 | 110 |
AmountDue | 數值 | 因廠商而產生的金額總計 | $610.00 | 610 |
ServiceAddress | string | 客戶的正確服務地址或資產地址 | 123 服務街, 雷德蒙德, 華盛頓, 98052 | |
BillingAddressRecipient | string | 與 ServiceAddress 相關聯的名稱 | Microsoft 服務 | |
RemittanceAddress | string | 客戶的正確匯款或付款地址 | 123 Remit St New York, NY, 10001 | |
RemittanceAddressRecipient | string | 與 RemittanceAddress 相關聯的名稱 | Contoso Billing | |
ServiceStartDate | date | 服務期間的第一個日期 (例如,水電費帳單服務期間) | 10/14/2019 | 2019-10-14 |
ServiceEndDate | date | 服務期間的結束日期 (例如,水電費帳單服務期間) | 11/14/2019 | 2019-11-14 |
PreviousUnpaidBalance | 數值 | 明確的之前未付餘額 | $500.00 | 500 |
以下是 JSON 輸出回應中從發票擷取的明細專案,並使用此 範例發票:
名稱 | 類型 | 描述 | 文字 (商品明細 #1) | 值 (標準化輸出) |
---|---|---|---|---|
項目 | string | 商品明細的完整字串文字行 | 3/4/2021 A123 諮詢服務 2 小時 $30.00 10% $60.00 | |
總數 | 數值 | 商品明細金額 | $60.00 | 100 |
描述 | string | 發票商品明細的文字描述 | 諮詢服務 | 諮詢服務 |
數量 | 數值 | 此發票商品明細的數量 | 2 | 2 |
UnitPrice | 數值 | 此商品一個單位的淨價格或總價格 (依據發票的總計發票設定而定) | $30.00 | 30 |
ProductCode | string | 與特定商品明細相關聯的產品編號、產品名稱或 SKU | A123 | |
單位 | string | 商品明細的單位,例如 kg、lb 等。 | 小時 | |
Date | date | 對應至每個商品明細的日期。 通常是出貨商品明細的日期 | 3/4/2021 | 2021-03-04 |
稅額 | 數值 | 與每個商品明細相關聯的稅金。 可能的值包括稅額、稅金 % 與稅金 Y/N | 10% |
以下是從 JSON 輸出回應中發票擷取的複雜字段:
TaxDetails
稅務詳細數據旨在分解套用至發票總計的不同稅金。
名稱 | 類型 | 描述 | 文字 (商品明細 #1) | 值 (標準化輸出) |
---|---|---|---|---|
項目 | 字串 | 稅務專案的全文檢索文字行 | V.A.T. 15% $60.00 | |
總數 | 數值 | 稅項的稅額 | 60.00 | 60 |
費率 | 字串 | 稅項的稅率 | 15% |
PaymentDetails
列出欄位中偵測到的所有偵測到付款選項。
名稱 | 類型 | 描述 | 文字 (商品明細 #1) | 值 (標準化輸出) |
---|---|---|---|---|
IBAN | 字串 | 內部銀行帳戶號碼 | GB33BUKB20201555555555 | |
迅速 | 字串 | Swift 代碼 | BUKBGB22 | |
BPayBillerCode | 字串 | 澳大利亞 B-Pay 帳單程序代碼 | 12345 | |
BPayReference | 字串 | 澳大利亞 B-Pay 參考代碼 | 98765432100 |
JSON 輸出
JSON 輸出有三個部分:
"readResults"
節點包含所有已辨識的文字和選取標記。 文字會透過頁面彙整,然後依文字行,再依個別字組彙整。"pageResults"
node 包含已擷取其周框方塊、信賴度,以及 readResults 中 行和字的參考的數據表和儲存格。"documentResults"
節點包含模型探索到的發票特定值和明細項目。 您會在這裡找到發票的所有欄位,例如發票識別碼、收件人、付款人、客戶、總計和明細項目等諸多資訊。
移轉指南
- 請遵循我們的文件智慧服務 v3.1 移轉指南,了解如何在應用程式和工作流程中使用 v3.0 版本。
下一步
嘗試使用 Document Intelligence Studio 處理您自己的表單和檔。
完成 Document Intelligence 快速入門,並開始以您選擇的開發語言來建立文件處理應用程式。
嘗試使用 檔智慧範例卷標工具來處理您自己的表單和檔。
完成 Document Intelligence 快速入門,並開始以您選擇的開發語言來建立文件處理應用程式。