Model faktury document intelligence

Důležité

  • Verze Document Intelligence ve verzi Public Preview poskytují dřívější přístup k funkcím, které jsou aktivní ve vývoji.
  • Funkce, přístupy a procesy se můžou před obecnou dostupností (GA) změnit na základě zpětné vazby uživatelů.
  • Verze Public Preview klientských knihoven Document Intelligence ve výchozím nastavení je rest API verze 2024-02-29-preview.
  • Verze Public Preview 2024-02-29-preview je aktuálně dostupná jenom v následujících oblastech Azure:
  • USA – východ
  • USA – západ 2
  • Západní Evropa

Tento obsah se vztahuje na:Zaškrtnutív4.0 (Preview) | Předchozí verze:modrá značka zaškrtnutív3.1 (GA)modrá značka zaškrtnutív3.0 (GA)modrá značka zaškrtnutív2.1 (GA)

Tento obsah se vztahuje na:Zaškrtnutív3.1 (GA) | Nejnovější verze:nachová značka zaškrtnutív4.0 (Preview) | Předchozí verze:modrá značka zaškrtnutív3.0modrá značka zaškrtnutív2.1

Tento obsah se vztahuje na:Zaškrtnutív3.0 (GA) | Nejnovější verze:nachová značka zaškrtnutív4.0 (Preview)nachová značka zaškrtnutív3.1 | Předchozí verze:modrá značka zaškrtnutív2.1

Tento obsah se vztahuje na:Zaškrtnutív2.1 | Nejnovější verze:modrá značka zaškrtnutív4.0 (Preview)

Model faktury document intelligence používá výkonné funkce optického rozpoznávání znaků (OCR) k analýze a extrakci klíčových polí a řádkových položek z prodejních faktur, faktur za utility a nákupních objednávek. Faktury můžou mít různé formáty a kvalitu, včetně obrázků zachycených telefonem, naskenovaných dokumentů a digitálních souborů PDF. Rozhraní API analyzuje text faktury; extrahuje klíčové informace, jako je jméno zákazníka, fakturační adresa, termín splatnosti a splatnost částky; a vrátí strukturovanou reprezentaci dat JSON. Model aktuálně podporuje faktury ve 27 jazycích.

Podporované typy dokumentů:

  • Faktury
  • Faktury za utility
  • Prodejní objednávky
  • Nákupní objednávky

Automatizované zpracování faktur

Automatizované zpracování faktur je proces extrahování klíčových polí splatných účtů z dokumentů fakturačního účtu. Extrahovaná data zahrnují řádkové položky z faktur integrovaných s pracovními postupy pro platby a recenze účtů (AP). V minulosti se proces splatných účtů provádí ručně, a proto je velmi časově náročný. Přesná extrakce klíčových dat z faktur je obvykle první a jeden z nejdůležitějších kroků v procesu automatizace faktury.

Ukázková faktura zpracovaná pomocí nástroje Document Intelligence Studio:

Snímek obrazovky s ukázkovou fakturou analyzovanou v nástroji Document Intelligence Studio

Ukázková faktura zpracovaná pomocí nástroje Popisování ukázek funkce Document Intelligence:

Snímek obrazovky s ukázkovou fakturou

Možnosti vývoje

Document Intelligence v4.0 (2024-02-02-29-preview, 2023-10-31-preview) podporuje následující nástroje, aplikace a knihovny:

Funkce Zdroje informací ID modelu
Model faktury Document Intelligence Studio
REST API
C# SDK
Python SDK• Java SDK
• JavaScript SDK• JavaScript SDK
předem připravená faktura

Document Intelligence v3.1 podporuje následující nástroje, aplikace a knihovny:

Funkce Zdroje informací ID modelu
Model faktury Document Intelligence Studio
REST API
C# SDK
Python SDK• Java SDK
• JavaScript SDK• JavaScript SDK
předem připravená faktura

Document Intelligence v3.0 podporuje následující nástroje, aplikace a knihovny:

Funkce Zdroje informací ID modelu
Model faktury Document Intelligence Studio
REST API
C# SDK
Python SDK• Java SDK
• JavaScript SDK• JavaScript SDK
předem připravená faktura

Document Intelligence v2.1 podporuje následující nástroje, aplikace a knihovny:

Funkce Zdroje informací
Model faktury Nástroj pro
popisování document intelligence• REST API
sada SDK
klientské knihovny• Kontejner Document Intelligence Dockeru

Požadavky na vstup

  • Nejlepšíchvýsledkůch

  • Podporované formáty souborů:

    Model PDF Obrázek:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    systém Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX) a HTML
    Čteno
    Rozložení ✔ (2024-02-29-preview, 2023-10-31-preview)
    Obecný dokument
    Předpřipravený
    Vlastní extrakce
    Vlastní klasifikace ✔ (29. 2024. 2024)
  • U SOUBORŮ PDF a TIFF je možné zpracovat až 2000 stránek (s předplatným úrovně Free se zpracovávají pouze první dvě stránky).

  • Velikost souboru pro analýzu dokumentů je 500 MB pro placenou úroveň (S0) a 4 MB pro bezplatnou úroveň (F0).

  • Rozměry obrázku musí být mezi 50 x 50 pixelů a 10 000 px x 10 000 pixelů.

  • Pokud jsou soubory PDF uzamčené heslem, musíte před odesláním toto uzamčení odebrat.

  • Minimální výška extrahovaného textu je 12 pixelů pro obrázek o velikosti 1024 x 768 pixelů. Tato dimenze odpovídá 8150 bodům na palec (DPI).

  • Pro trénování vlastního modelu je maximální počet stránek pro trénovací data 500 pro vlastní model šablony a 50 000 pro vlastní neurální model.

    • Pro trénování vlastního modelu extrakce je celková velikost trénovacích dat 50 MB pro model šablony a 1G MB pro neurální model.

    • Pro trénování modelu vlastní klasifikace je 1GB celková velikost trénovacích dat s maximálně 10 000 stránkami.

  • Podporované formáty souborů: JPEG, PNG, PDF a TIFF.
  • Podporované soubory PDF a TIFF, zpracovávají se až 2 000 stránek. Pro předplatitele úrovně Free se zpracovávají pouze první dvě stránky.
  • Podporovaná velikost souboru musí být menší než 50 MB a rozměry nejméně 50 × 50 pixelů a maximálně 10 000 × 10 000 pixelů.

Extrakce dat modelu faktury

Podívejte se, jak se data, včetně informací o zákaznících, podrobností o dodavateli a řádkových položek, extrahují z faktur. Potřebujete následující zdroje informací:

  • Předplatné Azure – můžete si ho zdarma vytvořit.

  • Instance Document Intelligence na webu Azure Portal K vyzkoušení služby můžete použít cenovou úroveň Free (F0). Po nasazení prostředku vyberte Přejít k prostředku a získejte klíč a koncový bod.

Snímek obrazovky s klíči a umístěním koncového bodu na webu Azure Portal

  1. Na domovské stránce nástroje Document Intelligence Studio vyberte Faktury.

  2. Ukázkovou fakturu můžete analyzovat nebo nahrát vlastní soubory.

  3. Vyberte tlačítko Spustit analýzu a v případě potřeby nakonfigurujte možnosti Analyzovat:

    Snímek obrazovky s tlačítky Možnosti Spustit analýzu a Analýza v nástroji Document Intelligence Studio

Nástroj Document Intelligence Sample Labeling

  1. Přejděte k nástroji Ukázka funkce Document Intelligence.

  2. Na domovské stránce ukázkového nástroje vyberte k získání dlaždice s daty předem vytvořený model.

    Snímek obrazovky s procesem analýzy výsledků modelu rozložení

  3. V rozevírací nabídce vyberte typ formuláře, který chcete analyzovat.

  4. Vyberte adresu URL souboru, který chcete analyzovat, z následujících možností:

  5. V poli Zdroj vyberte adresu URL z rozevírací nabídky, vložte vybranou adresu URL a vyberte tlačítko Načíst.

    Snímek obrazovky s rozevírací nabídkou umístění zdroje

  6. Do pole koncový bod služby Document Intelligence vložte koncový bod, který jste získali s předplatným Document Intelligence.

  7. Do pole s klíčem vložte klíč, který jste získali z prostředku Document Intelligence.

    Snímek obrazovky s rozevírací nabídkou select-form-type

  8. Vyberte Spustit analýzu. Nástroj Popisování ukázek funkce Document Intelligence volá předem připravené rozhraní API pro analýzu a analyzuje dokument.

  9. Prohlédněte si výsledky – prohlédněte si páry klíč-hodnota extrahované, řádkové položky, zvýrazněný text extrahovaný a zjištěné tabulky.

    Snímek obrazovky s operací analýzy výsledků modelu rozložení

Poznámka:

Nástroj Sample Labeling nepodporuje formát souboru BMP. Jedná se o omezení nástroje, nikoli služby Document Intelligence.

Podporované jazyky a národní prostředí

Úplný seznam podporovaných jazyků najdete na stránce podpory jazyků – předem připravená stránka modelů .

Extrakce polí

Name Typ Popis Standardizovaný výstup
CustomerName string Fakturovaný zákazník Microsoft Corp
CustomerId řetězec REFERENČNÍ ID zákazníka CID-12345
PurchaseOrder string Referenční číslo nákupní objednávky PO-3333
InvoiceId string ID pro tuto konkrétní fakturu (často číslo faktury) INV-100
InvoiceDate datum datum vystavení faktury mm-dd-yyyy
DueDate datum datum splatnosti platby za tuto fakturu mm-dd-yyyy
VendorName string Dodavatel, který vytvořil tuto fakturu CONTOSO LTD.
VendorAddress adresa Poštovní adresa dodavatele 123 456th St, New York, NY 10001
VendorAddressRecipient string Název přidružený k VendorAddress Ústředí společnosti Contoso
CustomerAddress adresa Poštovní adresa zákazníka 123 Other St, Redmond WA, 98052
CustomerAddressRecipient string Název přidružený k CustomerAddress Microsoft Corp
BillingAddress adresa Explicitní fakturační adresa zákazníka 123 Bill St, Redmond WA, 98052
BillingAddressRecipient string Název přidružený k BillingAddress Microsoft Services
ShippingAddress adresa Explicitní dodací adresa zákazníka 123 Ship St, Redmond WA, 98052
ShippingAddressRecipient string Název přidružený k Expedičníaddress Doručování Microsoftu
Dílčí součet měna Pole mezisoučtu identifikované na této faktuře $100.00
TotalDiscount měna Celková sleva uplatněná na fakturu 5,00 USD
TotalTax měna Celkové pole daně identifikované na této faktuře 10,00 $
InvoiceTotal měna Celkové nové poplatky spojené s touto fakturou 10,00 $
AmountDue měna Celková částka splatná dodavateli $610
PreviousUnpaidBalance měna Explicitně nezaplacený zůstatek Minimální plnění 500,00 USD
RemittanceAddress adresa Explicitní platební adresa nebo platební adresa pro zákazníka 123 Remit St New York, NY, 10001
RemittanceAddressRecipient string Název přidružený k souboru RemittanceAddress Fakturace společnosti Contoso
ServiceAddress adresa Explicitní adresa služby nebo adresa vlastnosti zákazníka 123 Service St, Redmond WA, 98052
ServiceAddressRecipient string Název přidružený k ServiceAddress Microsoft Services
ServiceStartDate datum První datum pro období služby (například období služby faktury za služby) mm-dd-yyyy
ServiceEndDate datum Koncové datum pro období služby (například období služby faktury za služby) mm-dd-yyyy
VendorTaxId string Číslo daňového poplatníka spojeného s dodavatelem 123456-7
CustomerTaxId string Číslo daňového poplatníka spojené se zákazníkem 765432-1
PaymentTerm string Podmínky platby na faktuře Net90
KVKNumber string Jedinečný identifikátor pro podniky zaregistrované v Nizozemsku (pouze NL) 12345678
CurrencyCode string Kód měny přidružený k extrahované hodnotě
PaymentDetails pole Pole obsahující podrobnosti o způsobu platby, například IBAN,SWIFT, BPayBillerCode(AU)BPayReference(AU)
TaxDetails pole Pole obsahující podrobnosti o dani, jako je částka a sazba
TaxDetails pole Pole obsahující přidané daňové údaje, například CGST, IGSTa SGST. Tato řádková položka je aktuálně dostupná pouze pro národní prostředí Německo (), Španělsko (dees), Portugalsko (pt) a Angličtina Kanada (en-CA).

Pole řádkových položek

Následují řádkové položky extrahované z faktury ve výstupní odpovědi JSON (následující výstup používá tuto ukázkovou fakturu:

Name Typ Popis Hodnota (standardizovaný výstup)
Částka měna Množství řádkové položky 60,00 Kč
Datum datum Datum odpovídající každé položce řádku Často se jedná o datum odeslání řádkové položky. 3/4/2021
Popis string Textový popis položky řádku faktury Konzultační služba
Množství Číslo Množství pro tuto položku řádku faktury 2
Productcode string Kód produktu, číslo výrobku nebo skladová položka přidružená ke konkrétní položce řádku A123
Daň měna Daň přidružená ke každé položce řádku Možné hodnoty zahrnují částku daně a daň Y/N 6,00 USD
TaxRate string Sazba daně přidružená ke každé položce řádku 18%
Unit string Jednotka řádkové položky, např. kg, lb atd. Hodiny
UnitPrice Číslo Čistá nebo hrubá cena (v závislosti na nastavení hrubé faktury) jedné jednotky této položky $30,00

Páry klíč-hodnota faktury a extrahované řádkové položky jsou v documentResults části výstupu JSON.

Páry klíč-hodnota

Předem připravená faktura 2022-06-30 a novější verze podporují volitelný návrat párů klíč-hodnota. Ve výchozím nastavení je návrat párů klíč-hodnota zakázán. Páry klíč-hodnota jsou specifické rozsahy v rámci faktury, které identifikují popisek nebo klíč a jeho přidruženou odpověď nebo hodnotu. Na faktuře můžou být tyto páry popiskem a hodnotou, kterou uživatel zadal pro dané pole nebo telefonní číslo. Model AI se vytrénuje tak, aby extrahovala identifikovatelné klíče a hodnoty na základě široké škály typů dokumentů, formátů a struktur.

Klíče mohou existovat také izolovaně, když model zjistí, že klíč existuje, bez přidružené hodnoty nebo při zpracování volitelných polí. Například pole s prostředním názvem může být v některých případech prázdné ve formuláři. Páry klíč-hodnota jsou vždy rozloženy do textu obsaženého v dokumentu. U dokumentů, ve kterých je stejná hodnota popsaná různými způsoby, například zákazník/uživatel, je přidruženým klíčem zákazník nebo uživatel (na základě kontextu).

Extrahovaná pole

Služba Faktura extrahuje textová pole, tabulky a 26 faktur. Následuje pole extrahovaná z faktury ve výstupní odpovědi JSON (následující výstup používá tuto ukázkovou fakturu).

Name Typ Popis Text Hodnota (standardizovaný výstup)
CustomerName string Fakturování zákazníka Microsoft Corp
CustomerId řetězec Referenční ID zákazníka CID-12345
PurchaseOrder string Referenční číslo nákupní objednávky PO-3333
InvoiceId string ID pro tuto konkrétní fakturu (často "Číslo faktury") INV-100
InvoiceDate datum Datum vystavení faktury 11/15/2019 2019-11-15
DueDate datum Datum platby za tuto fakturu je splatná 15. 12. 2019 2019-12-15
VendorName string Dodavatel, který vytvořil fakturu CONTOSO
VendorAddress string Poštovní adresa pro dodavatele 123 456th St New York, NY, 10001
VendorAddressRecipient string Název přidružený k VendorAddress Ústředí společnosti Contoso
CustomerAddress string Poštovní adresa zákazníka 123 Other Street, Redmond, Washington, 98052
CustomerAddressRecipient string Název přidružený k CustomerAddress Microsoft Corp
BillingAddress string Explicitní fakturační adresa zákazníka 123 Bill Street, Redmond, Washington, 98052
BillingAddressRecipient string Název přidružený k BillingAddress Microsoft Services
ShippingAddress string Explicitní dodací adresa zákazníka 123 Ship Street, Redmond, Washington, 98052
ShippingAddressRecipient string Název přidružený k Expedičníaddress Doručování Microsoftu
Dílčí součet Číslo Pole mezisoučtu identifikované na této faktuře $100.00 100
TotalTax Číslo Celkové pole daně identifikované na této faktuře 10,00 $ 10
InvoiceTotal Číslo Celkové nové poplatky spojené s touto fakturou $110,00 110
AmountDue Číslo Celková částka splatná dodavateli 610,00 Kč 610
ServiceAddress string Explicitní adresa služby nebo adresa vlastnosti zákazníka 123 Service Street, Redmond, Washington, 98052
ServiceAddressRecipient string Název přidružený k ServiceAddress Microsoft Services
RemittanceAddress string Explicitní platební adresa nebo platební adresa pro zákazníka 123 Remit St New York, NY, 10001
RemittanceAddressRecipient string Název přidružený k souboru RemittanceAddress Fakturace společnosti Contoso
ServiceStartDate datum První datum pro období služby (například období služby faktury za služby) 10/14/2019 2019-10-14
ServiceEndDate datum Koncové datum pro období služby (například období služby faktury za služby) 11/14/2019 2019-11-14
PreviousUnpaidBalance Číslo Explicitně nezaplacený zůstatek Minimální plnění 500,00 USD 500

Tady jsou řádkové položky extrahované z faktury ve výstupní odpovědi JSON a používají tuto ukázkovou fakturu:

Name Typ Popis Text (položka řádku č. 1) Hodnota (standardizovaný výstup)
Items string Řádek s úplným textovým řetězcem položky řádku 3/4/2021 A123 Konzultační služby 2 hodiny $30,00 10% $ 60,00
Množství Číslo Množství řádkové položky 60,00 Kč 100
Popis string Textový popis položky řádku faktury Konzultační služba Konzultační služba
Množství Číslo Množství pro tuto položku řádku faktury 2 2
UnitPrice Číslo Čistá nebo hrubá cena (v závislosti na nastavení hrubé faktury) jedné jednotky této položky $30,00 30
Productcode string Kód produktu, číslo výrobku nebo skladová položka přidružená ke konkrétní položce řádku A123
Unit string Jednotka řádkové položky, např. kg, lb atd. hodiny
Datum datum Datum odpovídající každé položce řádku Často se jedná o datum odeslání řádkové položky. 3/4/2021 2021-03-04
Daň Číslo Daň přidružená ke každé položce řádku Možné hodnoty zahrnují částku daně, daň %a daň Y/N. 10 %

Následující pole jsou složitá pole extrahovaná z faktury ve výstupní odpovědi JSON:

TaxDetails

Daňové údaje se zaměřují na rozdělení různých daní použitých na celkovou fakturu.

Name Typ Popis Text (položka řádku č. 1) Hodnota (standardizovaný výstup)
Items string Řádek s úplným textovým řetězcem položky daně V.A.T. 15% $60,00
Množství Číslo Částka daně z daňové položky 60,00 60
Míra string Daňová sazba položky daně 15 %

PaymentDetails

Vypíše všechny zjištěné možnosti platby zjištěné v poli.

Name Typ Popis Text (položka řádku č. 1) Hodnota (standardizovaný výstup)
IBAN string Číslo interního bankovního účtu GB33BUKB20201555555555
SWIFT string Kód SWIFT BUKBGB22
BPayBillerCode string Australian B-Pay Biller Code 12345
BPayReference string Referenční kód australského B-pay 98765432100

Výstup JSON

Výstup JSON má tři části:

  • "readResults" uzel obsahuje veškerý rozpoznaný text a značky výběru. Text je uspořádaný přes stránku, pak po řádku a potom podle jednotlivých slov.
  • "pageResults" Uzel obsahuje tabulky a buňky extrahované s ohraničujícími poli, jistotou a odkazem na řádky a slova v readResults.
  • "documentResults" uzel obsahuje hodnoty specifické pro fakturu a řádkové položky, které model zjistil. Tady najdete všechna pole z faktury, jako je ID faktury, odeslání, faktura, zákazník, celkový součet, řádkové položky a spousta dalších položek.

Průvodce migrací

  • Postupujte podle našeho průvodce migrací Document Intelligence v3.1 a zjistěte, jak používat verzi v3.0 ve vašich aplikacích a pracovních postupech.

Další kroky

  • Zkuste zpracovat vlastní formuláře a dokumenty pomocí nástroje Document Intelligence Sample Labeling.

  • Dokončete rychlý start s funkcí Document Intelligence a začněte vytvářet aplikaci pro zpracování dokumentů ve zvoleném vývojovém jazyce.