Megosztás a következőn keresztül:


Document Intelligence egyéni sablonmodell

Fontos

  • A Document Intelligence nyilvános előzetes verziójú kiadásai korai hozzáférést biztosítanak az aktív fejlesztés alatt lévő funkciókhoz. A funkciók, a megközelítések és a folyamatok az általános rendelkezésre állás (GA) előtt változhatnak a felhasználói visszajelzések alapján.
  • A Document Intelligence ügyfélkódtárak nyilvános előzetes verziója alapértelmezés szerint a REST API 2024-07-31-preview verziója.
  • A nyilvános előzetes verzió 2024-07-31 előzetes verziója jelenleg csak a következő Azure-régiókban érhető el. Vegye figyelembe, hogy az AI Studio egyéni generatív (dokumentummező-kinyerési) modellje csak az USA északi középső régiójában érhető el:
    • USA keleti régiója
    • USA2 nyugati régiója
    • Nyugat-Európa
    • USA északi középső régiója

Ez a tartalom a következőre vonatkozik:Sakk v4.0 (előzetes verzió) | Korábbi verziók: kék pipa v3.1 (GA) kék pipa v3.0 (GA) kék pipa v2.1 (GA)

Ez a tartalom a következőre vonatkozik: Sakk v3.1 (GA) | Legújabb verzió: lila pipa v4.0 (előzetes verzió) | Korábbi verziók: kék pipa v3.0 kék pipa v2.1

Ez a tartalom a következőre vonatkozik: Sakk v3.0 (GA) | Legújabb verziók:lila pipa v4.0 (előzetes verzió) lila pipa v3.1 | Korábbi verzió: kék pipa 2.1-es verzió

Ez a tartalom a következőre vonatkozik: Sakk v2.1 | Legújabb verzió: kék pipa 4.0-s verzió (előzetes verzió)

Az egyéni sablon (korábban egyéni űrlap) egy könnyen betanított dokumentummodell, amely pontosan kinyeri a címkézett kulcs-érték párokat, kijelölési jeleket, táblákat, régiókat és aláírásokat a dokumentumokból. A sablonmodellek elrendezési jeleket használnak az értékek dokumentumokból való kinyeréséhez, és alkalmasak mezők kinyerésére magas strukturált dokumentumokból, meghatározott vizualizációs sablonokkal.

Az egyéni sablonmodellek címkézési formátuma és stratégiája megegyezik az egyéni neurális modellekkel, több mezőtípus és nyelv támogatásával.

Modell képességei

Az egyéni sablonmodellek támogatják a kulcs-érték párokat, a kijelölési jeleket, a táblákat, az aláírásmezőket és a kijelölt régiókat.

Űrlapmezők Kijelölési jelek Táblázatos mezők (Táblák) Aláírás Kijelölt régiók Átfedésben lévő mezők
Támogatott Támogatott Támogatott Támogatott Támogatott Nem támogatott

Táblázatos mezők

Az API 3.0-s és újabb verzióinak kiadásával az egyéni sablonmodellek támogatják a lapközi táblázatos mezőket (táblákat):

  • Ha több oldalra kiterjedő táblázatot szeretne címkézni, címkézze fel a táblázat minden sorát egyetlen táblázat különböző oldalain.
  • Ajánlott eljárásként győződjön meg arról, hogy az adathalmaz néhány mintát tartalmaz a várt változatokról. Például olyan példákat is felvehet, amelyekben a teljes táblázat egy oldalon található, és ahol a táblázatok két vagy több oldalra is kiterjednek, ha a dokumentumokban várhatóan megjelennek ezek a változatok.

A táblázatos mezők akkor is hasznosak, ha ismétlődő információkat nyernek ki egy olyan dokumentumon belül, amely nem ismerhető fel táblaként. Az önéletrajzok munkatapasztalatainak ismétlődő szakasza például táblázatos mezőként címkézhető és kinyerhető.

Változatok kezelése

A sablonmodellek egy meghatározott vizualizációs sablonra támaszkodnak, a sablon módosításai alacsonyabb pontosságot eredményeznek. Ezekben az esetekben ossza fel a betanítási adatkészletet úgy, hogy legalább öt mintát tartalmazzon az egyes sablonokból, és betanítsa a modellt az egyes változatokhoz. Ezután a modelleket egyetlen végpontba írhatja . A finom változatok, például a digitális PDF-dokumentumok és képek esetében a legjobb, ha minden típusra legalább öt példát mutat be ugyanabban a betanítási adatkészletben.

Bemeneti követelmények

  • A legjobb eredmény érdekében dokumentumonként egy tiszta fényképet vagy kiváló minőségű vizsgálatot biztosít.

  • Támogatott fájlformátumok:

    Modell PDF Kép:
    JPEG/JPG, PNG, BMP, , TIFFHEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX) és HTML
    Olvasás
    Elrendezés ✔ (2024-02-29-preview, 2023-10-31-preview vagy újabb)
    Általános dokumentum
    Előre összeállított
    Egyéni

    ✱ A Microsoft Office-fájlok jelenleg nem támogatottak más modellekhez vagy verziókhoz.

  • PDF és TIFF esetén legfeljebb 2000 oldal dolgozható fel (ingyenes szintű előfizetéssel csak az első két oldal dolgozható fel).

  • A dokumentumok elemzéséhez használt fájlméret 500 MB a fizetős (S0) és 4 MB az ingyenes (F0) szint esetén.

  • A képméreteknek 50 x 50 képpont és 10 000 képpont x 10 000 képpont között kell lenniük.

  • Ha a PDF-eket jelszó védi, akkor beküldés előtt el kell távolítania a védelmet.

  • A kinyerni kívánt szöveg minimális magassága 12 képpont egy 1024 x 768 képpontos képhez. Ez a dimenzió körülbelül 8-pont szövegnek felel meg 150 pont/hüvelyk (DPI).

  • Egyéni modell betanítása esetén a betanítási adatok oldalainak maximális száma az egyéni sablonmodell esetében 500, az egyéni neurális modell esetében pedig 50 000.

  • Egyéni extrakciós modell betanítása esetén a betanítási adatok teljes mérete sablonmodell esetén 50 MB, a neurális modell esetében pedig 1G-MB.

  • Egyéni besorolási modell betanítása esetén a betanítási adatok 1GB teljes mérete legfeljebb 10 000 oldal lehet.

Modell betanítása

Az egyéni sablonmodellek általánosan elérhetők a 2.0-s és újabb API-verzióktól kezdve. Ha új projekttel kezd, vagy meglévő címkézett adatkészlettel rendelkezik, a Document Intelligence Studióval a 3.1-es vagy 3.0-s verziójú API-val taníthat be egyéni sablonmodelleket.

Modell REST API SDK Címkék és tesztelési modellek
Egyéni sablon v3.1 API Dokumentumintelligencia SDK Document Intelligence Studio

A 3.0-s és újabb API-k használatával a modell betanítására irányuló buildelési művelet támogatja az új buildMode tulajdonságot, az egyéni sablonmodell betanításához állítsa a buildMode következőre template.

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview


{
  "modelId": "string",
  "description": "string",
  "buildMode": "template",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Az egyéni sablonmodellek általánosan elérhetők a v3.1 API-val. Ha új projekttel kezd, vagy meglévő címkézett adatkészlettel rendelkezik, a Document Intelligence Studióval a 3.1-es vagy 3.0-s verziójú API-val taníthat be egyéni sablonmodelleket.

Modell REST API SDK Címkék és tesztelési modellek
Egyéni sablon v3.1 API Dokumentumintelligencia SDK Document Intelligence Studio

A 3.0-s és újabb API-k használatával a modell betanítására irányuló buildelési művelet támogatja az új buildMode tulajdonságot, az egyéni sablonmodell betanításához állítsa a buildMode következőre template.

https://{endpoint}/formrecognizer/documentModels:build?api-version=2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "template",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Támogatott nyelvek és területi beállítások

A támogatott nyelvek teljes listáját a Nyelvi támogatás – egyéni modellek oldalon találja.

Az egyéni (sablon)modellek általánosan elérhetők a v2.1 API-val.

Modell REST API SDK Címkék és tesztelési modellek
Egyéni modell (sablon) Dokumentumintelligencia 2.1 Dokumentumintelligencia SDK Dokumentumintelligencia-mintacímkéző eszköz

Következő lépések

Ismerje meg, hogyan hozhat létre és írhat egyéni modelleket: