Inkrementální trénování klasifikátoru

Článek
05/23/2024

Tento obsah se vztahuje na:v4.0 (Preview)

Azure AI Document Intelligence je cloudová služba Azure AI, která umožňuje vytvářet inteligentní řešení pro zpracování dokumentů. Rozhraní API funkce Document Intelligence analyzují obrázky, soubory PDF a další soubory dokumentů, aby extrahovali a rozpoznali různé obsahy, rozložení, styl a sémantické prvky.

Vlastní klasifikační modely Document Intelligence jsou typy modelů hlubokého učení, které kombinují funkce rozložení a jazyka, abyste přesně rozpoznali a identifikovali dokumenty, které zpracováváte ve svých aplikacích. Vlastní klasifikační modely provádějí klasifikaci vstupních souborů po jedné stránce, aby identifikovaly dokumenty v rámci a mohou také identifikovat více dokumentů nebo více instancí jednoho dokumentu ve vstupním souboru.

Klasifikátory dokumentů Document Intelligence identifikují známé typy dokumentů v souborech. Při zpracování vstupního souboru s více typy dokumentů nebo pokud neznáte typ dokumentu, identifikujte dokument pomocí klasifikátoru. Klasifikátory by měly být pravidelně aktualizovány při přidávání nových šablon pro existující třídu, přidání nových typů dokumentů pro rozpoznávání nebo spolehlivosti klasifikátoru je nízká. V některých scénářích už nemůžete mít původní sadu dokumentů sloužících k trénování klasifikátoru. Pomocí přírůstkového trénování teď můžete klasifikátor aktualizovat pouze novými označenými ukázkami.

Poznámka:

Přírůstkové trénování platí jenom pro modely klasifikátoru dokumentů a ne vlastní modely.

Přírůstkové trénování je užitečné, když chcete zlepšit kvalitu vlastního klasifikátoru. Přidání nových trénovacích ukázek pro existující třídy zlepšuje spolehlivost modelu pro existující typy dokumentů. Pokud je například přidána nová verze existujícího formuláře nebo existuje nový typ dokumentu. Příkladem může být, když vaše aplikace začne podporovat nový typ dokumentu jako platný vstup.

Začínáme s přírůstkovým trénováním

Přírůstkové trénování nezavádí žádné nové koncové body rozhraní API.
Datová documentClassifiers:build část požadavku se upraví tak, aby podporovala přírůstkové trénování.
Přírůstkové trénování vede k vytvoření nového modelu klasifikátoru s existujícím klasifikátorem, který zůstal nedotčený.
Nový klasifikátor obsahuje všechny ukázky dokumentů a typy starého klasifikátoru spolu s nově poskytnutými ukázkami. Potřebujete zajistit, aby vaše aplikace byla aktualizována, aby fungovala s nově natrénovaným klasifikátorem.

Poznámka:

Operace kopírování pro klasifikátory je momentálně nedostupná.

Vytvoření žádosti o přírůstkové sestavení klasifikátoru

Požadavek sestavení přírůstkového klasifikátoru je podobný požadavku na sestavení klasifikátoru dokumentu, ale obsahuje novou baseClassifierId vlastnost. Nastaví baseClassifierId se na existující klasifikátor, který chcete rozšířit. Musíte také zadat docTypes různé typy dokumentů v ukázkové sadě. Poskytnutím docType objektu baseClassifier se vzorky zadané v požadavku při trénu základního klasifikátoru přidají do ukázek. Nové docType hodnoty přidané do přírůstkového trénování se přidají pouze do nového klasifikátoru. Proces určení vzorků zůstává beze změny. Další informace najdete v tématutrénování modelu klasifikátoru.

Ukázkový požadavek POST

Ukázkový POST požadavek na sestavení klasifikátoru přírůstkového dokumentu

POST {your-endpoint}/documentintelligence/documentClassifiers:build?api-version=2024-02-29-preview

{
  "classifierId": "myAdaptedClassifier",
  "description": "Classifier description",
  "baseClassifierId": "myOriginalClassifier",
  "docTypes": {
    "formA": {
      "azureBlobSource": {
        "containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
        "prefix": "formADocs/"
      }
    },
    "formB": {
      "azureBlobFileListSource": {
        "containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
        "fileList": "formB.jsonl"
      }
    }
  }
}

Odpověď POST

Všechna rozhraní API funkce Document Intelligence jsou asynchronní a dotazování vráceného umístění operace poskytuje stav operace sestavení. Klasifikátory jsou rychlé k trénování a klasifikátor může být připravený k použití za minutu nebo dvě.

Po úspěšném dokončení:

Úspěšná POST metoda vrátí 202 OK kód odpovědi označující, že služba vytvořila požadavek.
Přeložené dokumenty se nacházejí v cílovém kontejneru.
Požadavek POST také vrátí hlavičky odpovědi včetně Operation-Location. Hodnota této hlavičky obsahuje resultId dotaz, který umožňuje získat stav asynchronní operace a načíst výsledky pomocí GET požadavku se stejným klíčem předplatného prostředku.

Ukázkový požadavek GET

Ukázkový GET požadavek na načtení výsledku klasifikátoru přírůstkového dokumentu

GET {your-endpoint}/documentintelligence/documentClassifiers/{classifierId}/analyzeResults/{resultId}?api-version=2024-02-29-preview


{
  "classifierId": "myAdaptedClassifier",
  "description": "Classifier description",
  "createdDateTime": "2022-07-30T00:00:00Z",
  "expirationDateTime": "2023-01-01T00:00:00Z",
  "apiVersion": "2024-02-29-preview",

  "baseClassifierId": "myOriginalClassifier",

  "docTypes": {
    "formA": {
      "azureBlobSource": {
        "containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
        "prefix": "formADocs/"
      }
    },
    "formB": {
      "azureBlobFileListSource": {
        "containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
        "fileList": "formB.jsonl"
      }
    }
  }
}

Odpověď GET

Odpověď GET z přírůstkově natrénovaného klasifikátoru se liší od standardní odpovědi klasifikátoru GET . Inkrementálně natrénovaný klasifikátor nevrací všechny podporované typy dokumentů. Vrátí typy dokumentů přidané nebo aktualizované v kroku přírůstkového trénování a rozšířený základní klasifikátor. Chcete-li získat úplný seznam typů dokumentů, musí být uveden základní klasifikátor. Odstranění základního klasifikátoru nemá vliv na použití inkrementálně natrénovaného klasifikátoru.

Omezení

Přírůstkové trénování funguje jenom v případech, kdy se základní klasifikátor a inkrementálně natrénovaný klasifikátor natrénují na stejné verzi rozhraní API. V důsledku toho má přírůstkově natrénovaný klasifikátor stejný životní cyklus modelu jako základní klasifikátor.
Omezení velikosti trénovací datové sady pro inkrementální klasifikátor jsou stejná jako u jiného klasifikátoru modelu. Úplný seznam použitelných limitů najdete v omezeních služeb.

Další kroky

Další informace o klasifikaci dokumentů

Sdílet prostřednictvím