Co je nového v Azure AI Document Intelligence

Tento obsah se vztahuje na:checkmarkv4.0 (Preview)checkmarkv3.1 (GA)checkmarkv3.0 (GA)checkmarkv2.1 (GA)

Služba Document Intelligence se průběžně aktualizuje. Přidejte si tuto stránku do záložek a mějte přehled o poznámkách k verzi, vylepšeních funkcí a nejnovější dokumentaci.

Důležité

Verze rozhraní API ve verzi Preview se po vydání rozhraní API hosta vyřadí z platnosti. Verze rozhraní API verze 2023-02-28-Preview se vyřazuje, pokud stále používáte rozhraní API verze Preview nebo přidružené verze SADY SDK, aktualizujte kód tak, aby cílil na nejnovější verzi rozhraní API 2023-07-31 (GA).

Únor 2024

Rozhraní REST API document Intelligence 2024-02-29-preview je nyní k dispozici. Toto rozhraní API ve verzi Preview představuje nové a aktualizované funkce:

  • Verze Public Preview 2024-02-29-preview je aktuálně dostupná jenom v následujících oblastech Azure:

    • USA – východ
    • USA – západ 2
    • Západní Evropa
  • Model rozložení teď podporuje detekci obrázků a hierarchickou analýzu struktury dokumentů (oddíly a pododdíly). Vylepšili jsme také kvalitu umělé inteligence pro pořadí čtení a detekci logických rolí.

  • Vlastní modely extrakce

    • Vlastní modely extrakce teď podporují skóre spolehlivosti na úrovni buněk, řádků a tabulek. Přečtěte si další informace o spolehlivosti tabulek, řádků a buněk.
    • Vlastní modely extrakce mají vylepšení kvality AI pro extrakci polí.
    • Model extrakce vlastních šablon teď podporuje extrahování překrývajících se polí. Přečtěte si další informace o překrývajících se polích a jejich používání.
  • Vlastní klasifikační model

    • Vlastní klasifikační model teď podporuje přírůstkové trénování pro scénáře, ve kterých potřebujete aktualizovat model klasifikátoru dalšími ukázkami nebo dalšími třídami. Přečtěte si další informace o přírůstkovém trénování.
    • Vlastní klasifikační model přidává podporu pro typy dokumentů Office (.docx, .pptx a .xls). Přečtěte si další informace o podpoře rozšířeného typu dokumentu.
  • Model faktury

    • Podpora nových národních prostředí:
    Národní prostředí Kód
    Arabština (ar)
    Bulharština (bg)
    Řečtina (el)
    Hebrejština (he)
    Makedonština (mk)
    Ruština (ru) Srbština cyrilice (sr-cyrl)
    Ukrajinština (uk)
    Thajština (th)
    Turečtina (tr)
    Vietnamština (vi)
    • Podpora nových kódů měn:
    Měna Národní prostředí Kód
    BAM Bosenská sklápěcí značka (ba)
    BGN Bulharský lev (bg)
    ILS Izraelská nová šekelová (il)
    MKD Makedonský denár (mk)
    RUB Ruský rubl (ru)
    THB Thai Baht (th)
    TRY Turecká Lira (tr)
    UAH Ukrajinská hřivna (ua)
    VND Vietnamský dong (vn)
    • Daňové položky podporují rozšíření Pro Německo (de), Španělsko (es),Portugalsko (pt), Angličtina Kanada en-CA.
  • Model ID

  • 🆕 Doklady o hypotékách

    • Extrahování informací z jednotné žádosti o půjčku na bydlení (formulář 1003).
    • Extrahujte informace z jednotného přepisování a přenosu nebo formuláře 1008.
    • Extrahujte informace z uzavření hypotéky.
  • 🆕 Model kreditní/debetní karty

    • Extrahujte informace z bankovních karet.
  • 🆕 Manželství certifikátu

    • Nové předem připravené pro extrakci informací z manželství certifikátů.

Prosinec 2023

Klientské knihovny Document Intelligence, které cílí na rozhraní REST API 2023-10-31-preview , jsou teď k dispozici pro použití.

Listopad 2023

Rozhraní REST API document Intelligence 2023-10-31-preview je teď k dispozici. Toto rozhraní API ve verzi Preview představuje nové a aktualizované funkce:

  • Verze Public Preview 2023-10-31-preview je aktuálně dostupná jenom v následujících oblastech Azure:

    • USA – východ
    • USA – západ 2
    • Západní Evropa
  • Čtení modelu

    • Rozšíření jazyka pro rukopis: ruština(ru), arabština(ar), thajština(th).
    • Dodržování předpisů eO (Cyber Executive Order).
  • Model rozložení

    • Podpora souborů Office a HTML
    • Podpora výstupu Markdownu
    • Vylepšení detekce nadpisů oddílů, extrakce, pořadí čtení a oddílů
    • Díky verzi Document Intelligence 2023-10-31-preview je obecný model dokumentu (předem připravený dokument) zastaralý. Pokud chcete extrahovat páry klíč-hodnota z dokumentů, použijte prebuilt-layout model s povoleným volitelným parametrem features=keyValuePairs řetězce dotazu.
  • Model účtenek

    • Teď extrahuje měnu pro všechna pole související s cenou.
  • Model zdravotní pojištění

    • Nová podpora pro medicare a Medicaid informace.
  • Modely daňových dokumentů USA

    • Nový daňový model 1099. Podporuje základní formát 1099 a následující varianty: A, B, C, CAP, DIV, G, H, INT, K, LS, LTC, MISC, NEC, OID, PATR, Q, QA, R, S, SA, SB.
  • Model faktury

    • Podpora pro KVK pole
    • Podpora pro BPAY pole
    • Řadu vylepšení polí.
  • Vlastní klasifikace

    • Podpora vícejazyčných dokumentů
    • Nové možnosti rozdělení stránky: automatické rozdělení, vždy rozděleno podle stránky, bez rozdělení.
  • Možnosti doplňků

    • Pole dotazu jsou k dispozici ve 2023-10-31-preview vydané verzi.
    • Možnosti doplňků jsou k dispozici ve všech modelech kromě modelu čtení.

Poznámka:

V případě obecné dostupnosti rozhraní API (GA) z 2022-08-31 se přidružená rozhraní API ve verzi Preview přestanou používat. Pokud používáte verze rozhraní API z 2021-09-30 preview, verze API z 2022-01-30 nebo 2022-06-30-preview, aktualizujte aplikace tak, aby cílily na verzi rozhraní API z 2022-08-31. Existuje několik menších změn, kde najdete další informace v průvodci migrací.

Červenec 2023

Poznámka:

Rozpoznávání formulářů je teď Azure AI Document Intelligence!

  • Dokument, služby Azure AI zahrnují všechny dříve známé služby Cognitive Services a Aplikace Azure lied AI Services.
  • Ceny se nemění.
  • Názvy služeb Cognitive Services a Aplikace Azure lied AI se nadále používají ve fakturaci Azure, analýze nákladů, ceníku a cenových rozhraních API.
  • V aplikačních programovacích rozhraních (API) ani klientských knihovnách nedošlo k žádným zásadním změnám.
  • Některé platformy stále čekají na aktualizaci přejmenování. Všechny zmínky o Rozpoznávání formulářů nebo funkci Document Intelligence v naší dokumentaci odkazují na stejnou službu Azure.

Document Intelligence v3.1 (GA)

Rozhraní API Document Intelligence verze 3.1 je nyní obecně dostupné (GA)! Verze rozhraní API odpovídá 2023-07-31. Rozhraní API verze 3.1 zavádí nové a aktualizované funkce:

Aktualizace nástroje Document Intelligence Studio

✔️ Možnosti analýzy

  • Funkce Document Intelligence teď podporuje sofistikovanější možnosti analýzy a Studio umožňuje snadno konfigurovat možnosti doplňku jedním vstupním bodem (tlačítko Analyzovat možnosti).

  • V závislosti na scénáři extrakce dokumentů nakonfigurujte rozsah analýzy, rozsah stránek dokumentu, volitelnou detekci a prémiové funkce detekce.

    Animated screenshot showing use of the analyze-options button to configure options in Studio.

    Poznámka:

    Extrakce písem není vizualizována v nástroji Document Intelligence Studio. Můžete ale zkontrolovat část stylů výstupu JSON pro výsledky detekce písem.

✔️ Automatické označování dokumentů pomocí předem připravených modelů nebo jednoho z vašich vlastních modelů

  • Na stránce popisování vlastního modelu extrakce teď můžete dokumenty automaticky označovat pomocí některého z předem připravených modelů nebo modelů služby Document Intelligent Service, které jste dříve natrénovali.

    Animated screenshot showing auto labeling in Studio.

  • U některých dokumentů můžou být po spuštění automatického popisku duplicitní popisky. Nezapomeňte popisky upravit tak, aby na stránce popisků nebyly žádné duplicitní popisky.

    Screenshot showing duplicate label warning after auto labeling.

✔️ Automatické popisování tabulek

  • Na stránce popisování vlastního modelu extrakce teď můžete tabulky v dokumentu automaticky označovat, aniž byste museli tabulky označovat ručně.

    Animated screenshot showing auto table labeling in Studio.

✔️ Přidání testovacích souborů přímo do trénovací datové sady

  • Jakmile vytrénujete vlastní model extrakce, využijte testovací stránku ke zlepšení kvality modelu tak, že v případě potřeby nahrajete testovací dokumenty do trénovací datové sady.

  • Pokud se u některých popisků vrátí skóre nízké spolehlivosti, ujistěte se, že jsou správně označené. Pokud ne, přidejte je do trénovací datové sady a znovu oznamte, aby se zlepšila kvalita modelu.

Animated screenshot showing how to add test files to training dataset.

✔️ Použití možností a filtrů seznamu dokumentů ve vlastních projektech

  • Použijte stránku popisování vlastního modelu extrakce. Trénovací dokumenty teď můžete snadno procházet pomocí funkce vyhledávání, filtrování a řazení.

  • Zobrazení mřížky můžete využít k zobrazení náhledu dokumentů nebo k snadnějšímu procházení dokumentů pomocí zobrazení seznamu.

    Screenshot showing document list view options and filters.

✔️ Sdílení projektů

Květen 2023

Představení aktualizované dokumentace k buildu 2023

Duben 2023

Oznámení nejnovější verze Public Preview klientské knihovny Document Intelligence

Březen 2023

Důležité

2023-02-28-preview možnosti jsou aktuálně dostupné pouze v následujících oblastech:

  • Západní Evropa
  • USA – západ 2
  • USA – východ
  • Vlastní klasifikační model je nová funkce v rámci funkce Document Intelligence počínaje rozhraním 2023-02-28-preview API. Vyzkoušejte funkci klasifikace dokumentů pomocí sady Document Intelligence Studio nebo rozhraní REST API.
  • Možnosti dotazování polí přidaných do obecného modelu dokumentů používají modely Azure OpenAI k extrahování konkrétních polí z dokumentů. Vyzkoušejte funkci Obecné dokumenty s poli dotazu pomocí nástroje Document Intelligence Studio. Pole dotazu jsou aktuálně aktivní pouze pro prostředky v East US dané oblasti.
  • Možnosti doplňku:
    • Extrakce písem se teď rozpozná pomocí 2023-02-28-preview rozhraní API.
    • Extrakce vzorců se teď rozpozná pomocí 2023-02-28-preview rozhraní API.
    • Extrakce vysokého rozlišení se teď rozpozná pomocí 2023-02-28-preview rozhraní API.
  • Aktualizace vlastního modelu extrakce:
    • Vlastní neurální model teď podporuje přidané jazyky pro trénování a analýzu. Trénujte neurální modely pro holandštinu, francouzštinu, němčinu, italštinu a španělštinu.
    • Vlastní model šablony má nyní vylepšenou funkci detekce podpisů.
  • Aktualizace sady Document Intelligence Studio :
    • Kromě podpory všech nových funkcí, jako jsou klasifikace a pole dotazů, teď Studio umožňuje sdílení projektů pro projekty vlastních modelů.
    • Nové doplňky modelu ve verzi Preview: vakcinační karty, smlouvy, daň z USA 1098, US Tax 1098-E a US Tax 1098-T. Pokud chcete požádat o přístup k vrátovaným modelům Preview, vyplňte a odešlete formulář žádosti o privátní náhled funkce Document Intelligence.
  • Aktualizace modelu účtenek:
    • Model účtenek přidává podporu pro tepelné účtenky.
    • Model účtenek teď přidává podporu jazyků pro 18 jazyků a tři regionální jazyky (angličtina, francouzština, portugalština).
    • Model účtenek teď podporuje TaxDetails extrakci.
  • Model rozložení teď vylepšuje rozpoznávání tabulek.
  • Model pro čtení teď přidává vylepšení pro rozpoznávání jednociferných znaků.

2023. únor

  • Vyberte kontejnery Document Intelligence pro verzi 3.0, které můžete použít.

  • Aktuálně jsou k dispozici kontejnery Read v3.0 a Layout v3.0 .

    Další informace najdete v tématuInstalace a spouštění kontejnerů Document Intelligence.


Leden 2023

  • Předem připravený model účtenek – přidání podporovaných jazyků Model účtenek teď podporuje tyto přidané jazyky a národní prostředí.

    • Japonština – Japonsko (ja-JP)
    • Francouzština – Kanada (fr-CA)
    • Nizozemština – Nizozemsko (nl-NL)
    • Angličtina - Spojené arabské emiráty (en-AE)
    • Portugalština – Brazílie (pt-BR)
  • Předem připravený model faktury – přidání podporovaných jazyků Model faktury teď podporuje tyto přidané jazyky a národní prostředí.

    • Angličtina - USA (en-US), Austrálie (en-AU), Kanada (en-CA), Velká Británie (en-UK), Indie (en-IN)
    • Španělština - Španělsko (es-ES)
    • Francouzština - Francie (fr-FR)
    • Italština - Itálie (it-IT)
    • Portugalština – Portugalsko (pt-PT)
    • Nizozemština – Nizozemsko (nl-NL)
  • Předem připravený model faktury – byla rozpoznána přidaná pole. Model faktury teď rozpozná tato přidaná pole.

    • Kód měny
    • Možnosti platby
    • Celková sleva
    • Daňové položky (pouze en-IN)
  • Předem vytvořený model ID – přidání podporovaných typů dokumentů Model ID teď podporuje tyto přidané typy dokumentů.

    • AMERICKÉ vojenské ID

Tip

Všechny aktualizace z ledna 2023 jsou k dispozici s rozhraním REST API verze 2022-08-31 (GA).

  • Předem připravený model účtenek – další podpora jazyků:

    Předem připravený model účtenek přidává podporu pro následující jazyky:

    • Angličtina - Spojené arabské emiráty (en-AE)
    • Nizozemština – Nizozemsko (nl-NL)
    • Francouzština – Kanada (fr-CA)
    • Němčina - (de-DE)
    • Italština - (it-IT)
    • Japonština – Japonsko (ja-JP)
    • Portugalština – Brazílie (pt-BR)
  • Předem připravený model faktury – další podpora jazyka a extrakce polí

    Předem připravený model faktury přidává podporu pro následující jazyky:

    • Angličtina - Austrálie (en-AU), Kanada (en-CA), Spojené království (en-UK), Indie (en-IN)
    • Portugalština – Brazílie (pt-BR)

    Předem připravený model faktury teď přidává podporu pro následující extrakce polí:

    • Kód měny
    • Možnosti platby
    • Celková sleva
    • Daňové položky (pouze en-IN)
  • Předem vytvořený model dokumentu ID – podpora dalších typů dokumentů

    Předem vytvořený model dokumentu ID teď přidává podporu pro následující typy dokumentů:

    • Rozšíření řidičského průkazu podporující Indii, Kanadu, Spojené království a Austrálii
    • Americké vojenské identifikační karty a dokumenty
    • Karty a dokumenty ID Indie (PAN a Aadhaar)
    • Vizitky a dokumenty austrálie (fotokarta, ID klíče)
    • Identifikační karty a dokumenty Kanady (identifikační karta, maple card)
    • Průkazy a doklady spojeného království (národní/regionální průkaz totožnosti)

Prosinec 2022

  • Aktualizace nástroje Document Intelligence Studio

    Verze nástroje Document Intelligence Studio z prosince zahrnuje nejnovější aktualizace sady Document Intelligence Studio. Existují významná vylepšení uživatelského prostředí, především s podporou popisků vlastních modelů.

    • Rozsah stránek Studio teď podporuje analýzu zadaných stránek z dokumentu.

    • Popisky vlastního modelu:

      • Automatické spuštění rozhraní API rozložení Můžete se rozhodnout spustit rozhraní API rozložení pro všechny dokumenty automaticky v úložišti objektů blob během procesu nastavení vlastního modelu.

      • Vyhledat Studio teď obsahuje funkci vyhledávání pro vyhledání slov v dokumentu. Toto vylepšení umožňuje snadnější navigaci při označování.

      • Navigace Můžete vybrat popisky, které budou cílit na slova označená v dokumentu.

      • Automatické popisování tabulek Po výběru ikony tabulky v dokumentu se můžete rozhodnout automaticky oznamovat extrahoovanou tabulku v zobrazení popisků.

      • Podtypy popisků a podtypy druhé úrovně Studio teď podporuje podtypy pro sloupce tabulky, řádky tabulky a podtypy druhé úrovně pro typy, jako jsou kalendářní data a čísla.

  • Vytváření vlastních neurálních modelů je nyní podporováno v oblasti US Gov Virginia.

  • Verze 2022-01-30-preview rozhraní API verze Preview a 2021-09-30-preview budou vyřazeny z 31. ledna 2023. Aktualizujte na 2022-08-31 verzi rozhraní API, abyste se vyhnuli přerušení služeb.


Listopad 2022

  • Oznámení nejnovější stabilní verze knihoven Azure AI Document Intelligence
    • Tato verze obsahuje důležité změny a aktualizace pro klientské knihovny .NET, Java, JavaScript a Python. Další informace najdete v tématuAzure SDK DevBlog.
    • Nejvýznamnějším vylepšením jsou zavedení dvou nových klientů, a DocumentAnalysisClientDocumentModelAdministrationClienttaké .

Říjen 2022

  • Obsah ve verzi Document Intelligence

    • Dokumentace k funkci Document Intelligence je aktualizovaná tak, aby představila prostředí s verzí. Teď se můžete rozhodnout zobrazit obsah, který cílí na v3.0 GA prostředí nebo prostředí v2.1 GA . Prostředí verze 3.0 je výchozí.

      Screenshot of the Document Intelligence landing page denoting the version dropdown menu.

  • Ukázkový kód nástroje Document Intelligence Studio

    • Vzorový kód pro prostředí popisků Document Intelligence Studio je teď k dispozici na GitHubu. Zákazníci můžou vyvíjet a integrovat funkci Document Intelligence do vlastního uživatelského prostředí nebo vytvářet vlastní nové uživatelské rozhraní pomocí ukázkového kódu nástroje Document Intelligence Studio.
  • Rozšíření jazyka

    • S nejnovější verzí Preview podporují modely šablon Document Intelligence pro čtení (OCR), Layout a Custom template 134 nových jazyků. Mezi tyto jazykové doplňky patří řečtina, lotyština, srbština, thajština, ukrajinština a vietnamština spolu s několika jazyky latinky a cyrilice. Funkce Document Intelligence teď obsahuje celkem 299 podporovaných jazyků v nejnovější verzi GA a nových verzích Preview. Všechny podporované jazyky najdete na stránce podporovaných jazyků .
    • Parametr REST API api-version=2022-06-30-preview použijte při použití rozhraní API nebo odpovídající sady SDK pro podporu nových jazyků ve vašich aplikacích.
  • Nový předem připravený model kontraktu

    • Nový předem připravený, který extrahuje informace ze smluv, jako jsou strany, titul, ID smlouvy, datum provedení a další. model kontraktů je aktuálně ve verzi Preview a požádejte o přístup sem.
  • Rozšíření oblasti pro trénování vlastních neurálních modelů

    • Trénování vlastních neurálních modelů se teď podporuje v přidaných oblastech.
      • USA – východ
      • USA – východ 2
      • US Gov – Arizona

2022. září

Poznámka:

Od verze 4.0.0 byla zavedena nová sada klientů, která využívá nejnovější funkce služby Document Intelligence.

Verze GA sady SDK verze 4.0.0 zahrnuje následující aktualizace:

  • Verze 4.0.0 GA (2022-09-08)
  • Podporuje klienty REST API verze 3.0 a v2.0.

Balíček (NuGet)

Protokol změn / Historie vydaných verzí

Průvodce migrací

Soubor readme

Ukázky

  • Rozšíření oblastí pro trénování vlastních neurálních modelů se teď podporuje v šesti nových oblastech.

    • Austrálie – východ
    • USA – střed
    • Východní Asie
    • Francie – střed
    • Velká Británie – jih
    • USA – západ 2
    • Úplný seznam oblastí, ve kterých se trénování podporuje, najdete ve vlastních neurálních modelech.

    • Verze 4.0.0 GA sady Document Intelligence SDK:

      • Klientské knihovny Document Intelligence verze 4.0.0 (.NET/C#, Java, JavaScript) a verze 3.2.0 (Python) jsou obecně dostupné a připravené k použití v produkčních aplikacích!.
      • Další informace o klientských knihovnách Document Intelligence najdete v přehledu sady SDK.
      • Aktualizujte aplikace pomocí průvodce migrací programovacího jazyka.

Srpen 2022

Verze Document Intelligence SDK beta ze srpna 2022 preview obsahuje následující aktualizace:

  • Obecně dostupné funkce Document Intelligence v3.0

    • Rozhraní DOCUMENT Intelligence REST API verze 3.0 je teď obecně dostupné a připravené k použití v produkčních aplikacích! Aktualizujte aplikace pomocí rozhraní REST API verze 2022-08-31.
  • Aktualizace nástroje Document Intelligence Studio

    • Další kroky. Na každé stránce modelu teď studio obsahuje další kroky. Uživatelé můžou rychle odkazovat na ukázkový kód, pokyny pro řešení potíží a informace o cenách.
    • Vlastní modely. Studio teď zahrnuje možnost změnit pořadí popisků v projektech vlastních modelů, aby se zlepšila efektivita označování.
    • Vlastní modely kopírování je možné zkopírovat napříč službami Document Intelligence v rámci studia. Tato operace umožňuje povýšení natrénovaného modelu do jiných prostředí a oblastí.
    • Odstraňte dokumenty. Studio teď podporuje odstraňování dokumentů z datové sady s popiskem v rámci vlastních projektů.
  • Aktualizace služby Document Intelligence

    • předem sestavené čtení. Model OCR pro čtení je teď k dispozici také ve funkci Document Intelligence s odstavci a rozpoznáváním jazyka jako dvě nové funkce. Funkce Document Intelligence Read cílí na pokročilé scénáře dokumentů v souladu s širšími možnostmi analýzy dokumentů v nástroji Document Intelligence.
    • předem připravené rozložení. Model rozložení extrahuje odstavce a zda je extrahovaný text odstavcem, nadpisem, nadpisem oddílu, poznámkou pod čarou, záhlavím stránky, zápatím stránky nebo číslem stránky.
    • předem připravená faktura. Pole TotalVAT a Line/VAT se teď přeloží na existující pole TotalTax a Line/Tax.
    • prebuilt-idDocument. Podpora extrakce dat pro ID státu USA, sociální zabezpečení a zelené karty Podpora informací o cestovním vízu.
    • předem připravená účtenka. Rozšířená podpora národního prostředí pro francouzštinu (fr-FR), španělštinu (es-ES), portugalštinu (pt-PT), italštinu (it-IT) a němčinu (de-DE).
    • předem připravená vizitka. Analýza adres podporuje extrahování dílčích polí pro komponenty adres, jako jsou adresa, město, stát, země/oblast a PSČ.
  • Vylepšení kvality AI

    • předem sestavené čtení. Vylepšená podpora pro jednotlivé znaky, ručně psaná data, částky, názvy, další klíčová data, která se běžně vyskytují v účtech a fakturách a vylepšeném zpracování digitálních dokumentů PDF.
    • předem připravené rozložení. Podpora pro lepší detekci oříznutých tabulek, okrajových tabulek a lepšího rozpoznávání dlouhých buněk, které pokrývají buňky.
    • předem připravený dokument. Vylepšená detekce hodnot a zaškrtávacích políček
    • vlastní neurální. Vylepšená přesnost detekce a extrakce tabulek.

Červen 2022

  • Verze Document Intelligence SDK beta z června 2022 ve verzi Preview obsahuje následující aktualizace:
  • Vydání sady Document Intelligence Studio z června je nejnovější aktualizací sady Document Intelligence Studio. Tato aktualizace řeší značné uživatelské prostředí a vylepšení přístupnosti:

    • Ukázka kódu pro JavaScript a C#. Karta Kód sady Studio teď přidává ukázky kódu JavaScriptu a jazyka C# kromě existujícího kódu Pythonu.
    • Nové uživatelské rozhraní pro nahrání dokumentu Studio teď podporuje nahrávání dokumentu přetažením do nového uživatelského rozhraní pro nahrávání.
    • Nová funkce pro vlastní projekty Vlastní projekty teď podporují vytváření účtu úložiště a objektů blob při konfiguraci projektu. Vlastní projekt teď navíc podporuje nahrávání trénovacích souborů přímo v sadě Studio a kopírování existujícího vlastního modelu.
  • Document Intelligence verze 3.0 2022-06-30-preview představuje rozsáhlé aktualizace napříč rozhraními API funkcí:


2022. únor

  • Verze Document Intelligence v3.0 Preview přináší několik nových funkcí, možností a vylepšení:

    • Vlastní neurální model nebo vlastní model dokumentu je nový vlastní model, který extrahuje text a značky výběru ze strukturovaných formulářů, částečně strukturovaných a nestrukturovaných dokumentů.
    • Předem vytvořený model W-2 je nový předem vytvořený model pro extrakci polí z formulářů W-2 pro scénáře daňového hlášení a ověřování příjmů.
    • Rozhraní API pro čtení extrahuje tištěné textové řádky, slova, umístění textu, zjištěné jazyky a rukou psaný text, pokud je zjištěn.
    • Obecný model předtrénovaného dokumentu je teď aktualizovaný tak, aby podporoval značky výběru kromě textu rozhraní API, tabulek, struktury a párů klíč-hodnota z formulářů a dokumentů.
    • Předem vytvořený model faktury rozhraní API pro faktury rozšiřuje podporu na španělské faktury.
    • Document Intelligence Studio přidává nové ukázky pro čtení, W2, ukázky účtenek hotelu a podporu pro trénování nových vlastních neurálních modelů.
    • Rozšíření jazyka Document Intelligence Read, Layout a Custom Form add support for 42 new languages including Arabic, Hindi, and other languages using Arabic and Devanagari scripts to expand the coverage to 164 languages. Podpora ručně psaného jazyka se rozšiřuje na japonštinu a korejštinu.
  • Začínáme s novým rozhraním REST API, Pythonem nebo sadou .NET SDK pro rozhraní API verze 3.0 Preview

  • Extrakce dat modelu Document Intelligence:

    Model Extrakce textu Páry klíč-hodnota Značky výběru Tabulky Signatury
    Čteno
    Obecný dokument
    Rozložení
    Faktura
    Potvrzení
    Průkaz totožnosti
    Vizitka
    Vlastní šablona
    Vlastní neurální
  • Verze Document Intelligence SDK beta verze Preview obsahuje následující aktualizace:


Listopad 2021

  • Aktualizace verze Sady Document Intelligence v3.0 Preview SDK (beta.2) zahrnuje opravy chyb a dílčí aktualizace funkcí.

Říjen 2021

  • Document Intelligence verze 3.0 Preview verze 4.0.0-beta.1 (2021-10-07) přináší několik nových funkcí a možností:

    • Obecný model dokumentu je nové rozhraní API, které používá předtrénovaný model k extrakci textu, tabulek, struktur a párů klíč-hodnota z formulářů a dokumentů.

    • Model potvrzení hotelu přidaný do předem připraveného zpracování účtenek.

    • Rozšířená pole pro dokument ID model ID podporuje doporučení, omezení a extrakci klasifikace vozidel z licencí řidiče v USA.

    • Pole Podpisu je nový typ pole ve vlastních formulářích, který rozpozná přítomnost podpisu v poli formuláře.

    • Podpora rozšíření jazyka pro 122 jazyků (tisk) a 7 jazyků (ručně psaných). Rozložení funkce Document Intelligence a vlastní formulář rozšiřují podporované jazyky na verzi 122 s nejnovější verzí Preview. Náhled obsahuje extrakci textu pro tisk textu v 49 nových jazycích, včetně ruštiny, bulharštiny a dalších jazyků cyrilice a dalších jazyků latinky. Kromě toho extrakce rukou psaného textu teď podporuje sedm jazyků, které zahrnují angličtinu a nové náhledy zjednodušené čínštiny, francouzštiny, němčiny, italštiny, portugalštiny a španělštiny.

    • Vylepšení pro extrahování tabulek a textu teď podporují extrakci tabulek s jedním řádkem označovaných také jako tabulky klíč-hodnota. Vylepšení extrakce textu zahrnují lepší zpracování digitálních souborů PDF a textu MRZ (Machine Readable Zone) v dokumentech identit spolu s obecným výkonem.

    • Document Intelligence Studio Pro zjednodušení používání služby teď máte přístup k nástroji Document Intelligence Studio a otestovat různé předem vytvořené modely nebo popisky a trénovat vlastní model.

    • Začínáme s novým rozhraním REST API, Pythonem nebo sadou .NET SDK pro rozhraní API verze 3.0 Preview

  • Extrakce dat modelu Document Intelligence

    Model Extrakce textu Páry klíč-hodnota Značky výběru Tabulky
    Obecný dokument
    Rozložení
    Faktura
    Potvrzení
    Průkaz totožnosti
    Vizitka
    Vlastní

Září 2021

  • Pokročilé funkce Průzkumníka metrik Azure jsou k dispozici na stránce přehledu prostředků Document Intelligence na webu Azure Portal.

  • Nabídka Monitorování:

    Screenshot showing the monitoring menu in the Azure portal.

  • Grafy:

    Screenshot showing an example metric chart in the Azure portal.

  • Aktualizace modelu dokumentu ID: zadané názvy, včetně přípony, s tečkou (úplné zastavení), proces úspěšně:

    Vstupní text Výsledek s aktualizací
    William Isaac Kirby Jr. Jméno: William Isaac

    LastName
    : Kirby Jr.
    Henry Caleb Ross Sr Jméno: Henry Caleb

    LastName
    : Ross Sr.

Červenec 2021

  • Podpora spravované identity přiřazené systémem: Teď můžete povolit spravovanou identitu přiřazenou systémem a udělit tak omezenému přístupu k účtům privátního úložiště, včetně účtů chráněných virtuální sítí, bránou firewall nebo povoleným vlastním úložištěm (BYOS). Další informace najdete v tématuVytvoření a použití spravované identity pro prostředek Document Intelligence.

Červen 2021

  • Kontejnery Document Intelligence verze 2.1 vydané ve vrátné verzi Preview a nyní jsou podporované šesti kontejnery funkcí – rozložení, vizitka, dokument ID, potvrzení, faktura a vlastní. Pokud je chcete použít, musíte odeslat online žádost a přijmout schválení.

  • Konektor Document Intelligence vydaný ve verzi Preview: Konektor Document Intelligence se integruje s Azure Logic Apps, Microsoft Power Automate a Microsoft Power Apps. Konektor podporuje akce a triggery pracovního postupu k extrakci a analýze dat a struktury dokumentů z vlastních a předem připravených formulářů, faktur, účtenek, vizitek a dokumentů ID.

  • Sada Document Intelligence SDK verze 3.1.0 je opravená na verzi 3.1.1 pro C#, Javu a Python. Oprava adresuje faktury, které neobsahují pole položek podřádku, která jsou zjištěna, například FormField s informacemi, TextPage ale bez informacíBoundingBox.


Květen 2021

  • Funkce Document Intelligence 2.1 je obecně dostupná. Verze GA označuje stabilitu změn zavedených v předchozích verzích balíčků verze Preview 2.1. Tato verze umožňuje zjišťovat a extrahovat informace a data z následujících typů dokumentů:

  • Začněte tím, že si vyzkoušíte ukázkový nástroj Document Intelligence a postupujte podle tohoto rychlého startu.

  • Aktualizovaná funkce tabulky rozhraní API rozložení přidává rozpoznávání hlaviček se záhlavími sloupců, které můžou přesahovat více řádků. Každá buňka tabulky má atribut, který označuje, jestli je součástí záhlaví nebo ne. Tuto aktualizaci lze použít k identifikaci řádků, které tvoří záhlaví tabulky.


2021. duben

  • Balíček NuGet verze 3.1.0-beta.4

  • Protokol změn nebo historie vydaných verzí

  • Nové metody analýzy dat z dokumentů identit:

    StartRecognizeIdDocumentsFromUriAsync

    StartRecognizeIdDocumentsAsync

    Seznam hodnot polí najdete v částiPole extrahovaná v naší dokumentaci k funkci Document Intelligence.

  • Rozbalili jsme sadu jazyků dokumentů, které lze poskytnout metodě StartRecognizeContent.

  • Nová vlastnost Pages podporovaná následujícími třídami:

    RecognizeBusinessCardsOptions
    RecognizeCustomFormsOptions
    RecognizeInvoicesOptions RecognizeReceiptsOptions


    Vlastnost Pages umožňuje vybrat jednotlivé stránky nebo rozsah stránek pro vícestránkové dokumenty PDF a TIFF. Pro jednotlivé stránky zadejte číslo stránky, 3například . Pro rozsah stránek (například strana 2 a stránky 5-7) zadejte čísla a rozsahy p stáří a rozsahy oddělené čárkami: 2, 5-7.

  • Nová vlastnost ReadingOrder podporovaná pro následující třídu:

    RecognizeContentOptions

    Vlastnost ReadingOrder je volitelný parametr, který umožňuje určit, který algoritmus pořadí čtení (basic nebo natural) se má použít k seřazení extrakce textových prvků. Pokud není zadána, je výchozí hodnota basic.

  • Aktualizace sady SDK ve verzi Preview pro verzi 2.1-preview.3 rozhraní API přináší aktualizace funkcí a vylepšení.

Březen 2021

Funkce Document Intelligence verze 2.1 public Preview verze 2.1-preview.3 byla vydána a obsahuje následující funkce:

  • Nový předem vytvořený model ID Nový předem vytvořený model ID umožňuje zákazníkům používat ID a vracet strukturovaná data pro automatizaci zpracování. Kombinuje naše výkonné funkce optického rozpoznávání znaků (OCR) s modely rozpoznávání ID k extrakci klíčových informací z pasů a uživatelských licencí.

    Další informace o předem vytvořeném modelu ID

    Screenshot of a sample passport.

  • Extrahování řádkových položek pro model faktury – Předem připravený model faktury teď podporuje extrakci řádkových položek, nyní extrahuje úplné položky a jejich části – popis, množství, množství, ID produktu, datum a další. Pomocí jednoduchého volání rozhraní API/SDK můžete extrahovat užitečná data z faktur – text, tabulka, páry klíč-hodnota a řádkové položky.

    Přečtěte si další informace o modelu faktury.

  • Popisování a trénování tabulek pod dohledem , označování prázdných hodnot – kromě špičkových funkcí automatického extrakce tabulek v oblasti hloubkového učení document Intelligence teď umožňuje zákazníkům označit a trénovat tabulky. Tato nová verze zahrnuje možnost označit a trénovat položky řádků a tabulek (dynamické a pevné) a trénovat vlastní model pro extrahování párů klíč-hodnota a položek řádků. Po vytrénování modelu model extrahuje řádkové položky jako součást výstupu JSON v části documentResults.

    Screenshot of the table labeling feature.

    Kromě tabulek popisků teď můžete popisovat prázdné hodnoty a oblasti. Pokud některé dokumenty v trénovací sadě nemají hodnoty pro určitá pole, můžete je označovat tak, aby model věděl, že extrahuje hodnoty správně z analyzovaných dokumentů.

  • Podpora 66 nových jazyků – Rozhraní API rozložení a vlastní modely pro funkci Document Intelligence teď podporují 73 jazyků.

    Přečtěte si další informace o podpoře jazyků funkce Document Intelligence.

  • Přirozené pořadí čtení, klasifikace rukopisu a výběr stránky – V této aktualizaci můžete získat výstupy řádku textu v přirozeném pořadí čtení místo výchozího řazení zleva doprava a shora dolů. Použijte nový parametr dotazu readingOrder a nastavte ho na "přirozenou" hodnotu pro popisnější výstup pořadí čtení. Kromě toho v případě latinských jazyků klasifikuje funkce Document Intelligence textové čáry jako rukou psaný styl nebo ne a dává skóre spolehlivosti.

  • Předem připravená vylepšení kvality modelu účtenky Tato aktualizace zahrnuje mnoho vylepšení kvality pro předem připravený model účtenek, zejména kolem extrakce řádkových položek.


Listopad 2020

  • Funkce Document Intelligence verze 2.1-preview.2 byla vydána a obsahuje následující funkce:

    • Nový předem připravený model faktury – nový předem připravený model faktury umožňuje zákazníkům přijímat faktury v různých formátech a vracet strukturovaná data pro automatizaci zpracování faktur. Kombinuje naše výkonné funkce optického rozpoznávání znaků (OCR) s fakturami, které rozumí modelům hlubokého učení, a extrahuje klíčové informace z faktur v angličtině. Extrahuje text klíče, tabulky a informace, jako je zákazník, dodavatel, ID faktury, termín splatnosti faktury, celková částka, částka splatná, částka daně, odeslání a vyúčtování.

      Další informace o předem připraveném modelu faktury

      Screenshot of a sample invoice.

    • Vylepšená extrakce tabulek – Funkce Document Intelligence teď poskytuje vylepšenou extrakci tabulek, která kombinuje naše výkonné funkce optického rozpoznávání znaků (OCR) s modelem extrakce tabulek hlubokého učení. Funkce Document Intelligence dokáže extrahovat data z tabulek, včetně složitých tabulek se sloučenými sloupci, řádky, bez ohraničení a dalších.

      Screenshot of tables analysis.

      Přečtěte si další informace o extrakci rozložení.

    • Aktualizace klientské knihovny – nejnovější verze klientských knihoven pro .NET, Python, Javu a JavaScript podporují rozhraní API Document Intelligence 2.1.

    • Podporuje se nový jazyk: Japonština – Nyní jsou podporovány následující nové jazyky: pro AnalyzeLayout a AnalyzeCustomForm: japonština (ja). Podpora jazyka.

    • Označení stylu čáry textu (ručně psané nebo jiné) (pouze latinka) – Funkce Document Intelligence teď vypíše appearance objekt klasifikující, jestli je každý řádek textu rukou psaný nebo ne, spolu se skóre spolehlivosti. Tato funkce je podporovaná jenom pro jazyky latinky.

    • Vylepšení kvality – vylepšení extrakce včetně vylepšení extrakce s jednou číslicí.

    • Nová funkce try-it-out v nástroji Pro ukázku a popisky document intelligence – možnost vyzkoušet předem připravené modely faktury, účtenky a vizitky a rozhraní API rozložení pomocí nástroje Pro popisování ukázek funkce Document Intelligence. Podívejte se, jak se data extrahují bez psaní kódu.

    • Vyzkoušejte nástroj Document Intelligence Sample Labeling

      Screenshot of the Sample Labeling tool homepage.

      • Smyčka zpětné vazby – Při analýze souborů pomocí nástroje Pro ukázkové popisování teď můžete také přidat do trénovací sady a v případě potřeby upravit popisky a vytrénovat, aby se model zlepšil.
      • Automatické dokumenty popisků – Automaticky popisky přidají dokumenty na základě předchozích označených dokumentů v projektu.

Srpen 2020

  • **Funkce Document Intelligence v2.1-preview.1 zahrnuje následující funkce:

    • K dispozici je referenční informace k rozhraní REST API – zobrazení v2.1-preview.1 reference.
    • Kromě angličtiny jsou teď podporovány i nové jazyky: pro Layout aTrain Custom Model: angličtina (), čínština (enzjednodušená), nizozemština (zh-Hansnl), francouzština (fr), němčina (de), italština (), portugalština (itpt) a španělština (es).
    • Zaškrtávací políčko / Detekce značky výběru – Funkce Document Intelligence podporuje detekci a extrakci značek výběru, jako jsou zaškrtávací políčka a přepínače. Značky výběru se extrahují Layout a teď můžete také označit a trénovat v Train Custom Model - trénování pomocí popisků a extrahovat páry klíč-hodnota pro značky výběru.
    • Vytváření modelů – umožňuje vytvářet a volat více modelů s jedním ID modelu. Když odešlete dokument, který se má analyzovat pomocí složeného ID modelu, provede se nejprve krok klasifikace, který ho přesměruje na správný vlastní model. Vytváření modelů je k dispozici pro Train Custom Model - trénování s popisky.
    • Název modelu – přidejte do vlastních modelů popisný název pro snadnější správu a sledování.
    • Nový předem vytvořený model pro vizitky pro extrahování běžných polí v angličtině, jazykové vizitky.
    • Nová národní prostředí pro předem připravené účtenky kromě EN-US je nyní k dispozici pro EN-AU, EN-CA, EN-GB, EN-IN.
    • Vylepšení kvality pro Layout, Train Custom Model - trénování bez popisků a trénování s popisky.
  • Verze 2.0 obsahuje následující aktualizaci:

    • Klientské knihovny pro NET, Python, Javu a JavaScript jsou obecně dostupné.

    Nové ukázky jsou k dispozici na GitHubu.

    • Recepty na extrakci znalostí – Playbook formulářů shromažďuje osvědčené postupy z skutečných zapojení zákazníků document intelligence a poskytuje použitelné ukázky kódu, kontrolní seznamy a ukázkové kanály používané při vývoji těchto projektů.
    • Nástroj Sample Labeling je aktualizovaný tak, aby podporoval novou funkci v2.1. V tomto rychlém startu se dozvíte, jak s nástrojem začít.
    • Ukázka inteligentního veřejného terminálu Document Intelligence ukazuje, jak integrovat Analyze Receipt a Train Custom Model - trénovat bez popisků.

Červenec 2020

  • Dostupné reference Document Intelligence v2.0 – Prohlédněte si referenční informace k rozhraní API verze 2.0 a aktualizované klientské knihovny pro .NET, Python, Javu a JavaScript.
    • Vylepšení tabulek a vylepšení extrakce – zahrnuje vylepšení přesnosti a extrahování tabulek, konkrétně schopnost učit se záhlaví a struktury tabulek ve vlastním trénování bez popisků.

    • Podpora měny – detekce a extrakce symbolů globální měny

    • Azure Gov – Funkce Document Intelligence je teď dostupná také v Azure Gov.

    • Vylepšené funkce zabezpečení:

      • Přineste si vlastní klíč – Funkce Document Intelligence automaticky šifruje vaše data, když jsou uložená v cloudu, aby je chránila a pomohla vám splnit závazky organizace týkající se zabezpečení a dodržování předpisů. Vaše předplatné ve výchozím nastavení používá šifrovací klíče spravované Microsoftem. Teď můžete také spravovat své předplatné pomocí vlastních šifrovacích klíčů. Klíče spravované zákazníkem, označované také jako Přineste si vlastní klíč (BYOK), nabízejí větší flexibilitu při vytváření, obměně, zákazu a odvolávání řízení přístupu. Šifrovací klíče sloužící k ochraně vašich dat můžete také auditovat.
      • Privátní koncové body – Umožňuje vám ve virtuální síti bezpečně přistupovat k datům přes Private Link.

Červen 2020


2020. duben

  • Podpora sady SDK pro rozhraní Document Intelligence API verze 2.0 Public Preview – tento měsíc jsme rozšířili podporu služeb, aby zahrnovala verzi Preview SDK pro document Intelligence verze 2.0. Pomocí těchto odkazů můžete začít s jazykem podle vašeho výběru:
  • .NET SDK
  • Java SDK
  • Python SDK
  • JavaScript SDK

Nová sada SDK podporuje všechny funkce rozhraní REST API v2.0 pro funkci Document Intelligence. Svůj názor na klientské knihovny můžete sdílet prostřednictvím formuláře Pro zpětnou vazbu sady SDK.


Březen 2020

  • Typy hodnot popisků Teď můžete určit typy hodnot, které popisujete pomocí nástroje Popisování ukázek funkce Document Intelligence. V současné době jsou podporovány následující typy hodnot a varianty:
  • string
    • výchozí, , no-whitespacesalphanumeric
  • number
    • Výchozí currency
  • date
    • výchozí, , dmymdyymd
  • time
  • integer

Informace o použití této funkce najdete v průvodci ukázkovým popiskem .

  • Vizualizace tabulky: Nástroj Pro ukázkové popisky teď zobrazuje tabulky, které byly v dokumentu rozpoznány. Tato funkce umožňuje zobrazit rozpoznané a extrahované tabulky z dokumentu před popiskem a analýzou. Tuto funkci můžete zapnout nebo vypnout pomocí možnosti vrstvy.

  • Následující obrázek je příkladem toho, jak se tabulky rozpoznají a extrahují:

    Screenshot of table visualization using the Sample Labeling tool.

  • Extrahované tabulky jsou k dispozici ve výstupu JSON v části "pageResults".

    Důležité

    Tabulky popisků se nepodporují. Pokud se tabulky nerozpoznají a extrahují automaticky, můžete je označit pouze jako páry klíč/hodnota. Při označování tabulek jako párů klíč/hodnota označte každou buňku jako jedinečnou hodnotu.

  • Vylepšení extrakce.

  • Tato verze zahrnuje vylepšení extrakce a vylepšení přesnosti, konkrétně schopnost popisovat a extrahovat několik párů klíč/hodnota ve stejném řádku textu.

  • Ukázkový nástroj Popisování je teď opensourcový.

  • Nástroj Document Intelligence Sample Labeling je nyní k dispozici jako opensourcový projekt. Můžete ho integrovat do svých řešení a provádět změny specifické pro zákazníky, aby vyhovovaly vašim potřebám.

  • Další informace o nástroji Document Intelligence Sample Labeling najdete v dokumentaci, která je k dispozici na GitHubu.

  • TLS 1.2 vynucování.

  • TLS 1.2 se teď vynucuje pro všechny požadavky HTTP na tuto službu. Další informace najdete v tématu Zabezpečení služeb Azure AI.


Leden 2020

Tato verze představuje funkci Document Intelligence 2.0. V dalších částech najdete další informace o nových funkcích, vylepšeních a změnách.

  • Nové funkce

    • Vlastní model

      • Trénování pomocí popisků Teď můžete vytrénovat vlastní model s ručně označenými daty. Výsledkem této metody jsou lépe výkonné modely a můžou vytvářet modely, které pracují se složitými formuláři nebo formuláři obsahujícími hodnoty bez klíčů.
      • Asynchronní rozhraní API Můžete použít asynchronní volání rozhraní API k trénování a analýze velkých datových sad a souborů.
      • Podpora souborů TIFF Teď můžete trénovat a extrahovat data z dokumentů TIFF.
      • Vylepšení přesnosti extrakce
    • Předem připravený model účtenek

      • Částky tipu Teď můžete extrahovat částky tipu a další ručně psané hodnoty.
      • Extrahování řádkových položek Můžete extrahovat hodnoty řádkových položek z účtenek.
      • Hodnoty spolehlivosti Můžete zobrazit spolehlivost modelu pro každou extrahovanou hodnotu.
      • Vylepšení přesnosti extrakce
      • Extrakce rozložení Teď můžete pomocí rozhraní API rozložení extrahovat textová data a data tabulky z formulářů.
  • Změny rozhraní API vlastního modelu

    Všechna rozhraní API pro trénování a používání vlastních modelů se přejmenují a některé synchronní metody jsou teď asynchronní. Toto jsou hlavní změny:

    • Proces trénování modelu je nyní asynchronní. Trénování zahájíte prostřednictvím volání rozhraní API /custom/models . Toto volání vrátí ID operace, které můžete předat do vlastních/modelů/{modelID} a vrátit výsledky trénování.
    • Extrakce klíč/hodnota je nyní inicializována voláním rozhraní API /custom/models/{modelID}/analyze API. Toto volání vrátí ID operace, které můžete předat do vlastních/modelů/{modelID}/analyzeResults/{resultID} , aby se vrátily výsledky extrakce.
    • ID operací pro operaci trénování se teď nacházejí v hlavičce Umístění odpovědí HTTP, nikoli v hlavičce Operation-Location .
  • Změny rozhraní API příjmu

    • Rozhraní API pro čtení tržeb se přejmenují.

    • Extrakce dat účtenek je teď iniciována voláním rozhraní API /prebuilt/receipt/analyze . Toto volání vrátí ID operace, které můžete předat /prebuilt/receipt/analyzeResults/{resultID} , aby se vrátily výsledky extrakce.

  • Změny výstupního formátu

    • Odpovědi JSON pro všechna volání rozhraní API mají nové formáty. Některé klíče a hodnoty se přidají, odeberou nebo přejmenují. Příklady aktuálních formátů JSON najdete v rychlých startech.

Další kroky

  • Zkuste zpracovat vlastní formuláře a dokumenty pomocí nástroje Document Intelligence Sample Labeling.

  • Dokončete rychlý start s funkcí Document Intelligence a začněte vytvářet aplikaci pro zpracování dokumentů ve zvoleném vývojovém jazyce.