Vlastní klasifikační model Document Intelligence

Důležité

  • Verze Document Intelligence ve verzi Public Preview poskytují dřívější přístup k funkcím, které jsou aktivní ve vývoji.
  • Funkce, přístupy a procesy se můžou před obecnou dostupností (GA) změnit na základě zpětné vazby uživatelů.
  • Verze Public Preview klientských knihoven Document Intelligence ve výchozím nastavení je rest API verze 2024-02-29-preview.
  • Verze Public Preview 2024-02-29-preview je aktuálně dostupná jenom v následujících oblastech Azure:
  • USA – východ
  • USA – západ 2
  • Západní Evropa

Tento obsah se vztahuje na:Zaškrtnutív4.0 (Preview) | Předchozí verze:modrá značka zaškrtnutív3.1 (GA)

Tento obsah se vztahuje na:Zaškrtnutív3.1 (GA) | Nejnovější verze:nachová značka zaškrtnutív4.0 (Preview)

Důležité

  • Rozhraní 2024-02-29-preview API, vlastní klasifikační model ve výchozím nastavení nedělí dokumenty během procesu analýzy.
  • Abyste zachovali chování z předchozích verzí, musíte vlastnost explicitně nastavit splitMode na automatické. Výchozí hodnota je splitModenone.
  • Pokud vstupní soubor obsahuje více dokumentů, musíte povolit rozdělení nastavením na splitModeautohodnotu .

Azure AI Document Intelligence je cloudová služba Azure AI, která umožňuje vytvářet inteligentní řešení pro zpracování dokumentů. Rozhraní API funkce Document Intelligence analyzují obrázky, soubory PDF a další soubory dokumentů, aby extrahovali a rozpoznali různé obsahy, rozložení, styl a sémantické prvky.

Vlastní klasifikační modely jsou typy modelů hlubokého učení, které kombinují funkce rozložení a jazyka, abyste přesně rozpoznali a identifikovali dokumenty, které v aplikaci zpracováváte. Vlastní klasifikační modely provádějí klasifikaci vstupního souboru po jedné stránce, aby identifikovaly dokumenty v rámci a mohou také identifikovat více dokumentů nebo více instancí jednoho dokumentu ve vstupním souboru.

Možnosti modelu

Poznámka:

  • Počínaje rozhraním 2024-02-29-preview API podporují vlastní modely clasification přírůstkové trénování. Do existujících tříd můžete přidat nové ukázky nebo přidat nové třídy odkazováním na existující klasifikátor.

Vlastní klasifikační modely můžou analyzovat dokumenty s jedním nebo více soubory a zjistit, jestli jsou některé z natrénovaných typů dokumentů obsaženy ve vstupním souboru. Tady jsou aktuálně podporované scénáře:

  • Jeden soubor obsahující jeden dokument. Například formulář žádosti o půjčku.

  • Jeden soubor obsahující více dokumentů. Například balíček žádosti o půjčku obsahující formulář žádosti o půjčku, výplatu a bankovní výpis.

  • Jeden soubor obsahující více instancí stejného dokumentu. Například kolekce naskenovaných faktur.

✔️ Trénování vlastního klasifikátoru vyžaduje alespoň two odlišné třídy a minimálně five ukázky dokumentů na třídu. Odpověď modelu obsahuje rozsahy stránek pro každou z identifikovaných tříd dokumentů.

✔️ Maximální povolený počet tříd je 500. Maximální povolený počet vzorků dokumentů na třídu je 100.

Model klasifikuje každou stránku vstupního dokumentu do jedné z tříd v označené datové sadě. Pokud chcete nastavit prahovou hodnotu pro vaši aplikaci, použijte skóre spolehlivosti z odpovědi.

Přírůstkové trénování

U vlastních modelů potřebujete zachovat přístup k trénovací datové sadě, abyste mohli klasifikátor aktualizovat novými ukázkami pro existující třídu nebo přidat nové třídy. Modely klasifikátoru teď podporují přírůstkové trénování, kde můžete odkazovat na existující klasifikátor a přidávat nové ukázky pro existující třídu nebo přidávat nové třídy s ukázkami. Přírůstkové trénování umožňuje scénáře, kdy je uchovávání dat výzvou a klasifikátor je potřeba aktualizovat tak, aby odpovídal měnícím se obchodním potřebám. Přírůstkové trénování se podporuje u modelů natrénovaných pomocí verze 2024-02-29-preview rozhraní API a novějších verzí.

Důležité

Přírůstkové trénování se podporuje jenom u modelů natrénovaných se stejnou verzí rozhraní API. Pokud se pokoušíte model rozšířit, použijte k rozšíření modelu verzi rozhraní API, pomocí které byl původní model natrénován. Přírůstkové trénování se podporuje jenom u rozhraní API verze 2024-02-29-preview nebo novější.

Přírůstkové trénování vyžaduje, abyste zadali původní ID modelu jako baseClassifierId. Další informace o tom, jak používat přírůstkové trénování, najdete v tématu přírůstkové trénování.

Podpora typů dokumentů Office

Klasifikátory teď můžete trénovat tak, aby rozpoznaly typy dokumentů v různých formátech, včetně PDF, obrázků, Wordu, PowerPointu a Excelu. Při sestavování trénovací datové sady můžete přidat dokumenty libovolného z podporovaných typů. Klasifikátor nevyžaduje explicitní označení konkrétních typů. Osvědčeným postupem je zajistit, aby vaše trénovací datová sada získala alespoň jeden vzorek každého formátu, aby se zlepšila celková přesnost modelu.

Porovnání vlastních klasifikací a složených modelů

Vlastní klasifikační model může v některých scénářích nahradit složený model , ale je potřeba si uvědomit několik rozdílů:

Schopnost Vlastní proces klasifikátoru Složený proces modelu
Analyzujte jeden dokument neznámého typu, který patří jednomu z typů trénovaných pro zpracování modelu extrakce. ● Vyžaduje více volání.
● Volejte klasifikační model na základě třídy dokumentu. Tento krok umožňuje kontrolu založenou na spolehlivosti před vyvoláním analýzy modelu extrakce.
● Vyvolání modelu extrakce.
● Vyžaduje jedno volání složeného modelu obsahujícího model odpovídající typu vstupního dokumentu.
Analyzujte jeden dokument neznámého typu patřícího k několika typům trénovaným pro zpracování modelu extrakce. ●Vyžaduje více volání.
● Volání klasifikátoru, který ignoruje dokumenty, které neodpovídají určenému typu pro extrakci.
● Vyvolání modelu extrakce.
● Vyžaduje jedno volání složeného modelu. Služba vybere vlastní model v rámci složeného modelu s nejvyšší shodou.
● Složený model nemůže ignorovat dokumenty.
Analyzujte soubor obsahující více dokumentů známého nebo neznámého typu, které patří k jednomu z typů trénovaných pro zpracování modelu extrakce. ● Vyžaduje více volání.
● Zavolejte model extrakce pro každý identifikovaný dokument ve vstupním souboru.
● Vyvolání modelu extrakce.
● Vyžaduje jedno volání složeného modelu.
● Složený model vyvolá model komponenty jednou v první instanci dokumentu.
●Zbývající dokumenty se ignorují.

Podpora jazyků

Klasifikační modely aktuálně podporují pouze dokumenty anglického jazyka.

Klasifikační modely se teď dají trénovat na dokumentech různých jazyků. Úplný seznam najdete v podporovaných jazycích .

Požadavky na vstup

Podporované formáty souborů:

Model PDF Obrázek:
jpeg/jpg, png, bmp, tiff, heif
systém Microsoft Office:
Word (docx), Excel (xlxs), PowerPoint (pptx)
Čteno
Rozložení ✔ (2024-02-29-preview, 2023-10-31-preview a novější)
Obecný dokument
Předpřipravený
Vlastní extrakce
Vlastní klasifikace
  • Nejlepších výsledků dosáhnete tak, že poskytnete pět jasných fotek nebo vysoce kvalitní skenování na každý typ dokumentu.

  • U SOUBORŮ PDF a TIFF je možné zpracovat až 2 000 stránek (s předplatným úrovně Free se zpracuje pouze první dvě stránky).

  • Velikost souboru pro analýzu dokumentů je 500 MB pro placenou úroveň (S0) a 4 MB pro bezplatnou úroveň (F0).

  • Rozměry obrázku musí být mezi 50 x 50 pixelů a 10 000 px x 10 000 pixelů.

  • Pokud jsou soubory PDF uzamčené heslem, musíte před odesláním toto uzamčení odebrat.

  • Minimální výška extrahovaného textu je 12 pixelů pro obrázek o velikosti 1024 x 768 pixelů. Tato dimenze odpovídá 8bodě v 150 bodech na paleč (DPI).

  • Pro trénování vlastního modelu je maximální počet stránek pro trénovací data 500 pro vlastní model šablony a 50 000 pro vlastní neurální model.

  • Pro trénování vlastního modelu extrakce je celková velikost trénovacích dat 50 MB pro model šablony a 1G MB pro neurální model.

  • Pro trénování modelu vlastní klasifikace je celková velikost trénovacích dat 1 GB s maximálně 10 000 stránkami.

Rozdělení dokumentu

Pokud máte v souboru více než jeden dokument, klasifikátor dokáže identifikovat různé typy dokumentů obsažené ve vstupním souboru. Odpověď klasifikátoru obsahuje rozsahy stránek pro každý z identifikovaných typů dokumentů obsažených v souboru. Tato odpověď může obsahovat více instancí stejného typu dokumentu.

Operace analýzy teď obsahuje splitMode vlastnost, která poskytuje podrobnou kontrolu nad chováním rozdělení.

  • Chcete-li zacházet s celým vstupním souborem jako s jedním dokumentem pro klasifikaci, nastavte splitMode na none. Když to uděláte, vrátí služba pouze jednu třídu pro celý vstupní soubor.
  • Chcete-li klasifikovat každou stránku vstupního souboru, nastavte splitMode na perPagehodnotu . Služba se pokusí klasifikovat každou stránku jako jednotlivý dokument.
  • Nastavte splitMode a auto služba identifikuje dokumenty a přidružené rozsahy stránek.

Osvědčené postupy

Vlastní klasifikační modely vyžadují k trénování minimálně pět vzorků na třídu. Pokud jsou třídy podobné, přidání dalších trénovacích ukázek zvyšuje přesnost modelu.

Klasifikátor se pokusí přiřadit každý dokument k jedné z tříd, pokud očekáváte, že model uvidí typy dokumentů, které nejsou součástí trénovací datové sady, měli byste naplánovat nastavení prahové hodnoty pro skóre klasifikace nebo přidat několik reprezentativních vzorků typů dokumentů do "other" třídy. "other" Přidáním třídy zajistíte, že nepotřebné dokumenty nebudou mít vliv na kvalitu klasifikátoru.

Trénování modelu

Vlastní klasifikační modely podporují rozhraní API verze 4.0:2024-02-29-preview a v3.1:2023-07-31 (GA). Document Intelligence Studio poskytuje uživatelské rozhraní bez kódu pro interaktivní trénování vlastního klasifikátoru. Postupujte podle návodu, jak začít.

Při použití rozhraní REST API, pokud dokumenty uspořádáte podle složek, můžete k trénování klasifikačního modelu použít azureBlobSource vlastnost požadavku.


https://{endpoint}/documentintelligence/documentClassifiers:build?api-version=2024-02-29-preview

{
  "classifierId": "demo2.1",
  "description": "",
  "docTypes": {
    "car-maint": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "sample1/car-maint/"
            }
    },
    "cc-auth": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "sample1/cc-auth/"
            }
    },
    "deed-of-trust": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "sample1/deed-of-trust/"
            }
    }
  }
}

https://{endpoint}/formrecognizer/documentClassifiers:build?api-version=2023-07-31

{
  "classifierId": "demo2.1",
  "description": "",
  "docTypes": {
    "car-maint": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "{path to dataset root}/car-maint/"
            }
    },
    "cc-auth": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "{path to dataset root}/cc-auth/"
            }
    },
    "deed-of-trust": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "{path to dataset root}/deed-of-trust/"
            }
    }
  }
}

Pokud máte také plochý seznam souborů nebo plánujete použít jen několik vybraných souborů v rámci každé složky k trénování modelu, můžete k trénování modelu použít azureBlobFileListSource vlastnost. Tento krok vyžaduje file list formát řádků JSON. Pro každou třídu přidejte nový soubor se seznamem souborů, které se mají odeslat pro trénování.

{
  "classifierId": "demo2",
  "description": "",
  "docTypes": {
    "car-maint": {
      "azureBlobFileListSource": {
        "containerUrl": "SAS URL to container",
        "fileList": "{path to dataset root}/car-maint.jsonl"
      }
    },
    "cc-auth": {
      "azureBlobFileListSource": {
        "containerUrl": "SAS URL to container",
        "fileList": "{path to dataset root}/cc-auth.jsonl"
      }
    },
    "deed-of-trust": {
      "azureBlobFileListSource": {
        "containerUrl": "SAS URL to container",
        "fileList": "{path to dataset root}/deed-of-trust.jsonl"
      }
    }
  }
}

Seznam souborů car-maint.jsonl například obsahuje následující soubory.

{"file":"classifier/car-maint/Commercial Motor Vehicle - Adatum.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Fincher.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Lamna.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Liberty.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Trey.pdf"}

Odpověď modelu

Analyzujte vstupní soubor pomocí modelu klasifikace dokumentů.

https://{endpoint}/documentintelligence/documentClassifiers/{classifier}:analyze?api-version=2024-02-29-preview
https://{service-endpoint}/formrecognizer/documentClassifiers/{classifier}:analyze?api-version=2023-07-31

Odpověď obsahuje identifikované dokumenty s přidruženými rozsahy stránek v části dokumenty odpovědi.

{
  ...

    "documents": [
      {
        "docType": "formA",
        "boundingRegions": [
          { "pageNumber": 1, "polygon": [...] },
          { "pageNumber": 2, "polygon": [...] }
        ],
        "confidence": 0.97,
        "spans": []
      },
      {
        "docType": "formB",
        "boundingRegions": [
          { "pageNumber": 3, "polygon": [...] }
        ],
        "confidence": 0.97,
        "spans": []
      }, ...
    ]
  }

Další kroky

Naučte se vytvářet vlastní klasifikační modely: