Model vizitek Document Intelligence

Důležité

Počínaje funkcí Document Intelligence v4.0 (Preview) a v budoucnu je model vizitek (předem vytvořený-businessCard) zastaralý. Pokud chcete extrahovat data z formátů vizitek, použijte následující:

Funkce version ID modelu
Model vizitek • v3.1:2023-07-31 (GA)
• v3.0:2022-08-31 (GA)
• v2.1 (GA)
prebuilt-businessCard

Tento obsah se vztahuje na:Zaškrtnutív3.1 (GA) | Předchozí verze:modrá značka zaškrtnutív3.0modrá značka zaškrtnutív2.1

Tento obsah se vztahuje na:Zaškrtnutív3.0 (GA) | Nejnovější verze:nachová značka zaškrtnutív4.0 (Preview)nachová značka zaškrtnutív3.1 | Předchozí verze:modrá značka zaškrtnutív2.1

Tento obsah se vztahuje na:Zaškrtnutív2.1 | Nejnovější verze:modrá značka zaškrtnutív4.0 (Preview)

Model vizitek Document Intelligence kombinuje výkonné funkce optického rozpoznávání znaků (OCR) s modely hloubkového učení, které analyzují a extrahují data z obrázků vizitek. Rozhraní API analyzuje vytištěné vizitky; extrahuje klíčové informace, jako je jméno, příjmení, název společnosti, e-mailová adresa a telefonní číslo; a vrátí strukturovanou reprezentaci dat JSON.

Extrakce dat vizitek

Vizitky představují skvělý způsob, jak reprezentovat firmu nebo profesionála. Firemní logo, písma a obrázky na pozadí nalezené na vizitkách pomáhají propagovat firemní branding a odlišit ho od ostatních. Použití technik založených na technologii OCR a strojového učení pro automatizaci skenování vizitek je běžným scénářem zpracování obrázků. Podnikové systémy používané prodejními a marketingovými týmy mají obvykle integraci funkcí extrakce dat vizitek, aby mohli využívat výhody uživatelů.

Ukázková vizitka zpracovaná pomocí nástroje Document Intelligence Studio

Snímek obrazovky s ukázkovou vizitkou analyzovanou v nástroji Document Intelligence Studio

Ukázka obchodního zpracování pomocí nástroje Document Intelligence Sample Labeling

Snímek obrazovky s ukázkovou vizitkou analyzovanou pomocí nástroje Document Intelligence Sample Labeling

Možnosti vývoje

Funkce Document Intelligence v3.1:2023-07-31 (GA) podporuje následující nástroje, aplikace a knihovny:

Funkce Zdroje informací ID modelu
Model vizitek Document Intelligence Studio
REST API
Sada SDK jazyka C#
Python SDK
Java SDK
JavaScript SDK
předem připravená vizitka

Funkce Document Intelligence v3.0:2022-08-31 (GA) podporuje následující nástroje, aplikace a knihovny:

Funkce Zdroje informací ID modelu
Model vizitek Document Intelligence Studio
REST API
Sada SDK jazyka C#
Python SDK
Java SDK
JavaScript SDK
předem připravená vizitka

Funkce Document Intelligence v2.1 (GA) podporuje následující nástroje, aplikace a knihovny:

Funkce Zdroje informací
Model vizitek Nástroj pro popisování funkce Document Intelligence
REST API
Sada SDK klientské knihovny
Kontejner Dockeru Document Intelligence

Vyzkoušení extrakce dat vizitek

Podívejte se, jak se data extrahují z vizitek, včetně jména, pracovní pozice, adresy, e-mailu a názvu společnosti. Potřebujete následující zdroje informací:

  • Předplatné Azure – můžete si ho zdarma vytvořit.

  • Instance Document Intelligence na webu Azure Portal K vyzkoušení služby můžete použít cenovou úroveň Free (F0). Po nasazení prostředku vyberte Přejít k prostředku a získejte klíč a koncový bod.

Snímek obrazovky s klíči a umístěním koncového bodu na webu Azure Portal

Document Intelligence Studio

Poznámka:

Document Intelligence Studio je k dispozici s rozhraními API v3.1 a v3.0.

  1. Na domovské stránce nástroje Document Intelligence Studio vyberte Vizitky.

  2. Ukázkovou vizitku můžete analyzovat nebo nahrát vlastní soubory.

  3. Vyberte tlačítko Spustit analýzu a v případě potřeby nakonfigurujte možnosti Analyzovat:

    Snímek obrazovky s tlačítky Možnosti Spustit analýzu a Analýza v nástroji Document Intelligence Studio

Nástroj Document Intelligence Sample Labeling

  1. Přejděte k nástroji Ukázka funkce Document Intelligence.

  2. Na domovské stránce ukázkového nástroje vyberte k získání dlaždice s daty předem vytvořený model.

    Snímek obrazovky s operací analýzy výsledků modelu rozložení

  3. V rozevírací nabídce vyberte typ formuláře, který chcete analyzovat.

  4. Vyberte adresu URL souboru, který chcete analyzovat, z následujících možností:

  5. V poli Zdroj vyberte adresu URL z rozevírací nabídky, vložte vybranou adresu URL a vyberte tlačítko Načíst.

    Snímek obrazovky s rozevírací nabídkou umístění zdroje

  6. Do pole koncový bod služby Document Intelligence vložte koncový bod, který jste získali s předplatným Document Intelligence.

  7. Do pole s klíčem vložte klíč, který jste získali z prostředku Document Intelligence.

    Snímek obrazovky s rozevírací nabídkou select-form-type

  8. Vyberte Spustit analýzu. Nástroj Popisování ukázek funkce Document Intelligence volá předem připravené rozhraní API pro analýzu a analyzuje dokument.

  9. Prohlédněte si výsledky – prohlédněte si páry klíč-hodnota extrahované, řádkové položky, zvýrazněný text extrahovaný a zjištěné tabulky.

    Snímek obrazovky s modelem vizitek analyzovanými operacemi výsledků

Poznámka:

Nástroj Sample Labeling nepodporuje formát souboru BMP. Jedná se o omezení nástroje, nikoli služby Document Intelligence.

Požadavky na vstup

  • Nejlepšíchvýsledkůch

  • Podporované formáty souborů:

    Model PDF Obrázek:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    systém Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX) a HTML
    Čteno
    Rozložení ✔ (2024-02-29-preview, 2023-10-31-preview)
    Obecný dokument
    Předpřipravený
    Vlastní extrakce
    Vlastní klasifikace ✔ (29. 2024. 2024)
  • U SOUBORŮ PDF a TIFF je možné zpracovat až 2000 stránek (s předplatným úrovně Free se zpracovávají pouze první dvě stránky).

  • Velikost souboru pro analýzu dokumentů je 500 MB pro placenou úroveň (S0) a 4 MB pro bezplatnou úroveň (F0).

  • Rozměry obrázku musí být mezi 50 x 50 pixelů a 10 000 px x 10 000 pixelů.

  • Pokud jsou soubory PDF uzamčené heslem, musíte před odesláním toto uzamčení odebrat.

  • Minimální výška extrahovaného textu je 12 pixelů pro obrázek o velikosti 1024 x 768 pixelů. Tato dimenze odpovídá 8150 bodům na palec (DPI).

  • Pro trénování vlastního modelu je maximální počet stránek pro trénovací data 500 pro vlastní model šablony a 50 000 pro vlastní neurální model.

    • Pro trénování vlastního modelu extrakce je celková velikost trénovacích dat 50 MB pro model šablony a 1G MB pro neurální model.

    • Pro trénování modelu vlastní klasifikace je 1GB celková velikost trénovacích dat s maximálně 10 000 stránkami.

  • Podporované formáty souborů: JPEG, PNG, PDF a TIFF
  • Pro PDF a TIFF se zpracovává až 2000 stránek. Pro předplatitele úrovně Free se zpracovávají pouze první dvě stránky.
  • Velikost souboru musí být menší než 50 MB a rozměry nejméně 50 × 50 pixelů a maximálně 10 000 × 10 000 pixelů.

Podporované jazyky a národní prostředí

Úplný seznam podporovaných jazyků najdete na naší stránce podpory jazyků.

Extrakce polí

Name Typ Popis Standardizovaný výstup
ContactNames Pole řetězců Jméno kontaktu
FirstName String Jméno (zadané) jméno kontaktu
LastName String Příjmení (rodina) jméno kontaktu
CompanyNames Pole řetězců Názvy společností
Oddělení Pole řetězců Kontaktní oddělení nebo organizace
JobTitles Pole řetězců Uvedení pracovních míst kontaktu
E-maily Pole řetězců Kontaktní e-mailové adresy
Weby Pole řetězců Webové stránky společnosti
Adresy Pole řetězců Adresy extrahované z vizitky
MobilePhones Pole telefonních čísel Mobilní telefonní čísla z vizitky +1 xxx xxx xxxx
Faxy Pole telefonních čísel Faxová telefonní čísla z vizitky +1 xxx xxx xxxx
Práce Telefon Pole telefonních čísel Pracovní telefonní čísla z vizitky +1 xxx xxx xxxx
Jiné Telefon Pole telefonních čísel Jiná telefonní čísla z vizitky +1 xxx xxx xxxx

Extrahovaná pole

Name Typ Popis Text
ContactNames pole objektů Jméno kontaktu extrahované z vizitky [{ "Jméno": "John", "LastName": "Doe" }]
FirstName string Jméno (zadané) jméno kontaktu "John"
LastName string Příjmení (rodina) jméno kontaktu "Doe"
CompanyNames pole řetězců Název společnosti extrahovaný z vizitky ["Contoso"]
Oddělení pole řetězců Oddělení nebo organizace kontaktu ["R&D"]
JobTitles pole řetězců Uvedená pracovní pozice kontaktu ["Softwarový inženýr"]
E-maily pole řetězců Kontaktní e-mail extrahovaný z vizitky [""johndoe@contoso.com]
Weby pole řetězců Web extrahovaný z vizitky [";https://www.contoso.com"]
Adresy pole řetězců Adresa extrahovaná z vizitky ["123 Main Street, Redmond, WA 98052"]
MobilePhones pole telefonních čísel Mobilní telefonní číslo extrahované z vizitky ["+19876543210"]
Faxy pole telefonních čísel Faxové telefonní číslo extrahované z vizitky ["+19876543211"]
Práce Telefon pole telefonních čísel Pracovní telefonní číslo extrahované z vizitky ["+19876543231"]
Jiné Telefon pole telefonních čísel Jiné telefonní číslo extrahované z vizitky ["+19876543233"]

Podporovaná národní prostředí

Předem připravené vizitky verze 2.1 podporují následující národní prostředí:

  • en-us
  • en-au
  • en-ca
  • en-gb
  • En-in

Průvodce migrací a rozhraní REST API verze 3.1

  • Postupujte podle našeho průvodce migrací Document Intelligence v3.1 a zjistěte, jak používat verzi v3.0 ve vašich aplikacích a pracovních postupech.

Další kroky

  • Zkuste pomocí nástroje Document Intelligence Studio zpracovat vlastní formuláře a dokumenty .

  • Dokončete rychlý start s funkcí Document Intelligence a začněte vytvářet aplikaci pro zpracování dokumentů ve zvoleném vývojovém jazyce.