Model faktury document intelligence
Důležité
- Verze Document Intelligence ve verzi Public Preview poskytují dřívější přístup k funkcím, které jsou aktivní ve vývoji. Funkce, přístupy a procesy se můžou před obecnou dostupností (GA) změnit na základě zpětné vazby uživatelů.
- Verze Public Preview klientských knihoven Document Intelligence je výchozí pro rozhraní REST API verze 2024-07-31-preview.
- Verze Public Preview 2024-07-31-preview je aktuálně dostupná jenom v následujících oblastech Azure. Všimněte si, že vlastní model generování (extrakce polí dokumentu) v AI Studiu je k dispozici pouze v oblasti USA – středosever:
- USA – východ
- USA – západ 2
- Západní Evropa
- USA – středosever
Tento obsah se vztahuje na: v4.0 (Preview) | Předchozí verze: v3.1 (GA) v3.0 (GA) v2.1 (GA)
Tento obsah se vztahuje na: v3.1 (GA) | Nejnovější verze: v4.0 (Preview) | Předchozí verze: v3.0 v2.1
Tento obsah se vztahuje na: v3.0 (GA) | Nejnovější verze: v4.0 (Preview) v3.1 | Předchozí verze: v2.1
Tento obsah se vztahuje na: v2.1 | Nejnovější verze: v4.0 (Preview)
Model faktury document intelligence používá výkonné funkce optického rozpoznávání znaků (OCR) k analýze a extrakci klíčových polí a řádkových položek z prodejních faktur, faktur za utility a nákupních objednávek. Faktury můžou mít různé formáty a kvalitu, včetně obrázků zachycených telefonem, naskenovaných dokumentů a digitálních souborů PDF. Rozhraní API analyzuje text faktury; extrahuje klíčové informace, jako je jméno zákazníka, fakturační adresa, termín splatnosti a splatnost částky; a vrátí strukturovanou reprezentaci dat JSON. Model aktuálně podporuje faktury ve 27 jazycích.
Podporované typy dokumentů:
- Faktury
- Faktury za utility
- Prodejní objednávky
- Nákupní objednávky
Automatizované zpracování faktur
Automatizované zpracování faktur je proces extrakce klíčových accounts payable
polí z dokumentů fakturačního účtu. Extrahovaná data zahrnují řádkové položky z faktur integrovaných s pracovními postupy pro platby a recenze účtů (AP). V minulosti se proces splatných účtů provádí ručně, a proto je velmi časově náročný. Přesná extrakce klíčových dat z faktur je obvykle první a jeden z nejdůležitějších kroků v procesu automatizace faktury.
Ukázková faktura zpracovaná pomocí nástroje Document Intelligence Studio:
Ukázková faktura zpracovaná pomocí nástroje Popisování ukázek funkce Document Intelligence:
Možnosti vývoje
Document Intelligence v4.0 (2024-07-07-31-preview) podporuje následující nástroje, aplikace a knihovny:
Funkce | Zdroje informací | ID modelu |
---|---|---|
Model faktury | • Document Intelligence Studio • REST API • C# SDK • Python SDK• Java SDK • JavaScript SDK• JavaScript SDK |
předem připravená faktura |
Document Intelligence v3.1 podporuje následující nástroje, aplikace a knihovny:
Funkce | Zdroje informací | ID modelu |
---|---|---|
Model faktury | • Document Intelligence Studio • REST API • C# SDK • Python SDK• Java SDK • JavaScript SDK• JavaScript SDK |
předem připravená faktura |
Document Intelligence v3.0 podporuje následující nástroje, aplikace a knihovny:
Funkce | Zdroje informací | ID modelu |
---|---|---|
Model faktury | • Document Intelligence Studio • REST API • C# SDK • Python SDK• Java SDK • JavaScript SDK• JavaScript SDK |
předem připravená faktura |
Document Intelligence v2.1 podporuje následující nástroje, aplikace a knihovny:
Funkce | Zdroje informací |
---|---|
Model faktury | • Nástroj pro popisování document intelligence• REST API • sada SDK klientské knihovny• Kontejner Document Intelligence Dockeru |
Požadavky na vstup
Podporované formáty souborů:
Model PDF Obrázek: JPEG/JPG
,PNG
,BMP
,TIFF
,HEIF
systém Microsoft Office:
Word (DOCX
), Excel (XLSX
), PowerPoint (PPTX
), HTMLČteno ✔ ✔ ✔ Rozložení ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview) Obecný dokument ✔ ✔ Předpřipravený ✔ ✔ Vlastní extrakce ✔ ✔ Vlastní klasifikace ✔ ✔ ✔ (31. 7. 2024, 2024-02-29-preview) Nejlepšíchvýsledkůch
U SOUBORŮ PDF a TIFF je možné zpracovat až 2 000 stránek (s předplatným úrovně Free se zpracuje pouze první dvě stránky).
Velikost souboru pro analýzu dokumentů je 500 MB pro placenou úroveň (S0) a
4
MB pro bezplatnou úroveň (F0).Rozměry obrázku musí být mezi 50 pixely x 50 pixelů a 10 000 pixelů x 10 000 pixelů.
Pokud jsou soubory PDF uzamčené heslem, musíte před odesláním toto uzamčení odebrat.
Minimální výška extrahovaného textu je 12 pixelů pro obrázek o velikosti 1024 x 768 pixelů. Tato dimenze odpovídá
8
bodě textu na 150 bodů na palec (DPI).Pro trénování vlastního modelu je maximální počet stránek pro trénovací data 500 pro vlastní model šablony a 50 000 pro vlastní neurální model.
Pro trénování vlastního modelu extrakce je celková velikost trénovacích dat 50 MB pro model šablony a
1
GB pro neurální model.Pro trénování modelu vlastní klasifikace je
1
celková velikost trénovacích dat GB s maximálně 10 000 stránkami. Pro verzi 2024-07-31-preview a novější je2
celková velikost trénovacích dat GB s maximálně 10 000 stránkami.
- Podporované formáty souborů: JPEG, PNG, PDF a TIFF.
- Podporované soubory PDF a TIFF, zpracovávají se až 2 000 stránek. Pro předplatitele úrovně Free se zpracovávají pouze první dvě stránky.
- Podporovaná velikost souboru musí být menší než 50 MB a rozměry nejméně 50 × 50 pixelů a maximálně 10 000 × 10 000 pixelů.
Extrakce dat modelu faktury
Podívejte se, jak se data, včetně informací o zákaznících, podrobností o dodavateli a řádkových položek, extrahují z faktur. Potřebujete následující zdroje informací:
Předplatné Azure – můžete si ho zdarma vytvořit.
Instance Document Intelligence na webu Azure Portal K vyzkoušení služby můžete použít cenovou úroveň Free (
F0
). Po nasazení prostředku vyberte Přejít k prostředku a získejte klíč a koncový bod.
Na domovské stránce nástroje Document Intelligence Studio vyberte Faktury.
Ukázkovou fakturu můžete analyzovat nebo nahrát vlastní soubory.
Vyberte tlačítko Spustit analýzu a v případě potřeby nakonfigurujte možnosti Analyzovat:
Nástroj Document Intelligence Sample Labeling
Přejděte k nástroji Ukázka funkce Document Intelligence.
Na domovské stránce ukázkového nástroje vyberte k získání dlaždice s daty předem vytvořený model.
V rozevírací nabídce vyberte typ formuláře, který chcete analyzovat.
Vyberte adresu URL souboru, který chcete analyzovat, z následujících možností:
- Ukázkový dokument faktury
- Ukázkový dokument s ID
- Ukázkový obrázek potvrzení
- Ukázkový obrázek vizitky
V poli Zdroj vyberte adresu URL z rozevírací nabídky, vložte vybranou adresu URL a vyberte tlačítko Načíst.
Do pole koncový bod služby Document Intelligence vložte koncový bod, který jste získali s předplatným Document Intelligence.
Do pole s klíčem vložte klíč, který jste získali z prostředku Document Intelligence.
Vyberte Spustit analýzu. Nástroj Popisování ukázek funkce Document Intelligence volá předem připravené rozhraní API pro analýzu a analyzuje dokument.
Prohlédněte si výsledky – prohlédněte si páry klíč-hodnota extrahované, řádkové položky, zvýrazněný text extrahovaný a zjištěné tabulky.
Poznámka:
Nástroj Sample Labeling nepodporuje formát souboru BMP. Jedná se o omezení nástroje, nikoli služby Document Intelligence.
Podporované jazyky a národní prostředí
Úplný seznam podporovaných jazyků najdete na naší stránce podpory předem připravených jazyků modelu.
Extrakce polí
Podporovaná pole extrakce dokumentů najdete na stránce schématu modelu faktury v našem ukázkovém úložišti GitHubu.
Páry klíč-hodnota faktury a extrahované řádkové položky jsou v
documentResults
části výstupu JSON.
Páry klíč-hodnota
Předem připravená faktura 2022-06-30 a novější verze podporují volitelný návrat párů klíč-hodnota. Ve výchozím nastavení je návrat párů klíč-hodnota zakázán. Páry klíč-hodnota jsou specifické rozsahy v rámci faktury, které identifikují popisek nebo klíč a jeho přidruženou odpověď nebo hodnotu. Na faktuře můžou být tyto páry popiskem a hodnotou, kterou uživatel zadal pro dané pole nebo telefonní číslo. Model AI se vytrénuje tak, aby extrahovala identifikovatelné klíče a hodnoty na základě široké škály typů dokumentů, formátů a struktur.
Klíče mohou existovat také izolovaně, když model zjistí, že klíč existuje, bez přidružené hodnoty nebo při zpracování volitelných polí. Například pole s prostředním názvem může být v některých případech prázdné ve formuláři. Páry klíč-hodnota jsou vždy rozloženy do textu obsaženého v dokumentu. U dokumentů, ve kterých je stejná hodnota popsaná různými způsoby, například zákazník/uživatel, je přidruženým klíčem zákazník nebo uživatel (na základě kontextu).
Extrahovaná pole
Služba Faktura extrahuje textová pole, tabulky a 26 faktur. Následuje pole extrahovaná z faktury ve výstupní odpovědi JSON (následující výstup používá tuto ukázkovou fakturu).
Name | Typ | Popis | Text | Hodnota (standardizovaný výstup) |
---|---|---|---|---|
CustomerName | string | Fakturování zákazníka | Microsoft Corp | |
CustomerId | řetězec | Referenční ID zákazníka | CID-12345 | |
PurchaseOrder | string | Referenční číslo nákupní objednávky | PO-3333 | |
InvoiceId | string | ID pro tuto konkrétní fakturu (často "Číslo faktury") | INV-100 | |
InvoiceDate | datum | Datum vystavení faktury | 11/15/2019 | 2019-11-15 |
DueDate | datum | Datum platby za tuto fakturu je splatná | 15. 12. 2019 | 2019-12-15 |
VendorName | string | Dodavatel, který vytvořil fakturu | CONTOSO | |
VendorAddress | string | Poštovní adresa pro dodavatele | 123 456th St New York, NY, 10001 | |
VendorAddressRecipient | string | Název přidružený k VendorAddress | Ústředí společnosti Contoso | |
CustomerAddress | string | Poštovní adresa zákazníka | 123 Other Street, Redmond, Washington, 98052 | |
CustomerAddressRecipient | string | Název přidružený k CustomerAddress | Microsoft Corp | |
BillingAddress | string | Explicitní fakturační adresa zákazníka | 123 Bill Street, Redmond, Washington, 98052 | |
BillingAddressRecipient | string | Název přidružený k BillingAddress | Microsoft Services | |
ShippingAddress | string | Explicitní dodací adresa zákazníka | 123 Ship Street, Redmond, Washington, 98052 | |
ShippingAddressRecipient | string | Název přidružený k Expedičníaddress | Doručování Microsoftu | |
Mezisoučet | Číslo | Pole mezisoučtu identifikované na této faktuře | $100.00 | 100 |
TotalTax | Číslo | Celkové pole daně identifikované na této faktuře | 10,00 $ | 10 |
InvoiceTotal | Číslo | Celkové nové poplatky spojené s touto fakturou | $110,00 | 110 |
AmountDue | Číslo | Celková částka splatná dodavateli | 610,00 Kč | 610 |
ServiceAddress | string | Explicitní adresa služby nebo adresa vlastnosti zákazníka | 123 Service Street, Redmond, Washington, 98052 | |
ServiceAddressRecipient | string | Název přidružený k ServiceAddress | Microsoft Services | |
RemittanceAddress | string | Explicitní platební adresa nebo platební adresa pro zákazníka | 123 Remit St New York, NY, 10001 | |
RemittanceAddressRecipient | string | Název přidružený k souboru RemittanceAddress | Fakturace společnosti Contoso | |
ServiceStartDate | datum | První datum pro období služby (například období služby faktury za služby) | 10/14/2019 | 2019-10-14 |
ServiceEndDate | datum | Koncové datum pro období služby (například období služby faktury za služby) | 11/14/2019 | 2019-11-14 |
PreviousUnpaidBalance | Číslo | Explicitně nezaplacený zůstatek | Minimální plnění 500,00 USD | 500 |
Tady jsou řádkové položky extrahované z faktury ve výstupní odpovědi JSON a používají tuto ukázkovou fakturu:
Name | Typ | Popis | Text (položka řádku č. 1) | Hodnota (standardizovaný výstup) |
---|---|---|---|---|
Items | string | Řádek s úplným textovým řetězcem položky řádku | 3/4/2021 A123 Konzultační služby 2 hodiny $30,00 10% $ 60,00 | |
Množství | Číslo | Množství řádkové položky | 60,00 Kč | 100 |
Popis | string | Textový popis položky řádku faktury | Konzultační služba | Konzultační služba |
Množství | Číslo | Množství pro tuto položku řádku faktury | 2 | 2 |
UnitPrice | Číslo | Čistá nebo hrubá cena (v závislosti na nastavení hrubé faktury) jedné jednotky této položky | $30,00 | 30 |
Kód ProductCode | string | Kód produktu, číslo výrobku nebo skladová položka přidružená ke konkrétní položce řádku | A123 | |
Unit | string | Jednotka řádkové položky, např. kg, lb atd. | hodin(y) | |
Datum | datum | Datum odpovídající každé položce řádku Často se jedná o datum odeslání řádkové položky. | 3/4/2021 | 2021-03-04 |
Daň | Číslo | Daň přidružená ke každé položce řádku Možné hodnoty zahrnují částku daně, daň %a daň Y/N. | 10 % |
Následující pole jsou složitá pole extrahovaná z faktury ve výstupní odpovědi JSON:
TaxDetails
Podrobnosti o dani definují konkrétní daně použité na celkovou fakturu.
Name | Typ | Popis | Text (položka řádku č. 1) | Hodnota (standardizovaný výstup) |
---|---|---|---|---|
Items | string | Řádek s úplným textovým řetězcem položky daně | V.A.T. 15% $60,00 | |
Množství | Číslo | Částka daně z daňové položky | 60,00 | 60 |
Míra | string | Daňová sazba položky daně | 15 % |
PaymentDetails
Vypíše všechny zjištěné možnosti platby zjištěné v poli.
Name | Typ | Popis | Text (položka řádku č. 1) | Hodnota (standardizovaný výstup) |
---|---|---|---|---|
IBAN |
string | Číslo interního bankovního účtu | GB33BUKB20201555555555 | |
SWIFT |
string | Kód SWIFT | BUKBGB22 | |
BankAccountNumber | string | Číslo bankovního účtu, jedinečný identifikátor bankovního účtu | 123456 | |
BPayBillerCode | string | Australian B-Pay Biller Code | 12345 | |
BPayReference | string | Referenční kód australského B-pay | 98765432100 |
Výstup JSON
Výstup JSON má tři části:
"readResults"
uzel obsahuje veškerý rozpoznaný text a značky výběru. Text je uspořádaný přes stránku, pak po řádku a potom podle jednotlivých slov."pageResults"
Uzel obsahuje tabulky a buňky extrahované s ohraničujícími poli, jistotou a odkazem na řádky a slova v readResults."documentResults"
uzel obsahuje hodnoty specifické pro fakturu a řádkové položky, které model zjistil. Tady najdete všechna pole z faktury, jako je ID faktury, odeslání, faktura, zákazník, celkový součet, řádkové položky a spousta dalších položek.
Průvodce migrací
- Postupujte podle našeho průvodce migrací Document Intelligence v3.1 a zjistěte, jak používat verzi v3.0 ve vašich aplikacích a pracovních postupech.
Další kroky
Zkuste pomocí nástroje Document Intelligence Studio zpracovat vlastní formuláře a dokumenty.
Dokončete rychlý start s funkcí Document Intelligence a začněte vytvářet aplikaci pro zpracování dokumentů ve zvoleném vývojovém jazyce.
Zkuste zpracovat vlastní formuláře a dokumenty pomocí nástroje Document Intelligence Sample Labeling.
Dokončete rychlý start s funkcí Document Intelligence a začněte vytvářet aplikaci pro zpracování dokumentů ve zvoleném vývojovém jazyce.