Document Intelligence egyéni sablonmodell
Fontos
- A Document Intelligence nyilvános előzetes verziójú kiadásai korai hozzáférést biztosítanak az aktív fejlesztés alatt lévő funkciókhoz. A funkciók, a megközelítések és a folyamatok az általános rendelkezésre állás (GA) előtt változhatnak a felhasználói visszajelzések alapján.
- A Document Intelligence ügyfélkódtárak nyilvános előzetes verziója alapértelmezés szerint a REST API 2024-07-31-preview verziója.
- A nyilvános előzetes verzió 2024-07-31 előzetes verziója jelenleg csak a következő Azure-régiókban érhető el. Vegye figyelembe, hogy az AI Studio egyéni generatív (dokumentummező-kinyerési) modellje csak az USA északi középső régiójában érhető el:
- USA keleti régiója
- USA2 nyugati régiója
- Nyugat-Európa
- USA északi középső régiója
Ez a tartalom a következőre vonatkozik: v4.0 (előzetes verzió) | Korábbi verziók: v3.1 (GA) v3.0 (GA) v2.1 (GA)
Ez a tartalom a következőre vonatkozik: v3.1 (GA) | Legújabb verzió: v4.0 (előzetes verzió) | Korábbi verziók: v3.0 v2.1
Ez a tartalom a következőre vonatkozik: v3.0 (GA) | Legújabb verziók: v4.0 (előzetes verzió) v3.1 | Korábbi verzió: 2.1-es verzió
Ez a tartalom a következőre vonatkozik: v2.1 | Legújabb verzió: 4.0-s verzió (előzetes verzió)
Az egyéni sablon (korábban egyéni űrlap) egy könnyen betanított dokumentummodell, amely pontosan kinyeri a címkézett kulcs-érték párokat, kijelölési jeleket, táblákat, régiókat és aláírásokat a dokumentumokból. A sablonmodellek elrendezési jeleket használnak az értékek dokumentumokból való kinyeréséhez, és alkalmasak mezők kinyerésére magas strukturált dokumentumokból, meghatározott vizualizációs sablonokkal.
Az egyéni sablonmodellek címkézési formátuma és stratégiája megegyezik az egyéni neurális modellekkel, több mezőtípus és nyelv támogatásával.
Modell képességei
Az egyéni sablonmodellek támogatják a kulcs-érték párokat, a kijelölési jeleket, a táblákat, az aláírásmezőket és a kijelölt régiókat.
Űrlapmezők | Kijelölési jelek | Táblázatos mezők (Táblák) | Aláírás | Kijelölt régiók | Átfedésben lévő mezők |
---|---|---|---|---|---|
Támogatott | Támogatott | Támogatott | Támogatott | Támogatott | Nem támogatott |
Táblázatos mezők
Az API 3.0-s és újabb verzióinak kiadásával az egyéni sablonmodellek támogatják a lapközi táblázatos mezőket (táblákat):
- Ha több oldalra kiterjedő táblázatot szeretne címkézni, címkézze fel a táblázat minden sorát egyetlen táblázat különböző oldalain.
- Ajánlott eljárásként győződjön meg arról, hogy az adathalmaz néhány mintát tartalmaz a várt változatokról. Például olyan példákat is felvehet, amelyekben a teljes táblázat egy oldalon található, és ahol a táblázatok két vagy több oldalra is kiterjednek, ha a dokumentumokban várhatóan megjelennek ezek a változatok.
A táblázatos mezők akkor is hasznosak, ha ismétlődő információkat nyernek ki egy olyan dokumentumon belül, amely nem ismerhető fel táblaként. Az önéletrajzok munkatapasztalatainak ismétlődő szakasza például táblázatos mezőként címkézhető és kinyerhető.
Változatok kezelése
A sablonmodellek egy meghatározott vizualizációs sablonra támaszkodnak, a sablon módosításai alacsonyabb pontosságot eredményeznek. Ezekben az esetekben ossza fel a betanítási adatkészletet úgy, hogy legalább öt mintát tartalmazzon az egyes sablonokból, és betanítsa a modellt az egyes változatokhoz. Ezután a modelleket egyetlen végpontba írhatja . A finom változatok, például a digitális PDF-dokumentumok és képek esetében a legjobb, ha minden típusra legalább öt példát mutat be ugyanabban a betanítási adatkészletben.
Bemeneti követelmények
A legjobb eredmény érdekében dokumentumonként egy tiszta fényképet vagy kiváló minőségű vizsgálatot biztosít.
Támogatott fájlformátumok:
Modell PDF Kép:
JPEG/JPG
,PNG
,BMP
, ,TIFF
HEIF
Microsoft Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX) és HTMLOlvasás ✔ ✔ ✔ Elrendezés ✔ ✔ ✔ (2024-02-29-preview, 2023-10-31-preview vagy újabb) Általános dokumentum ✔ ✔ Előre összeállított ✔ ✔ Egyéni ✔ ✔ ✱ A Microsoft Office-fájlok jelenleg nem támogatottak más modellekhez vagy verziókhoz.
PDF és TIFF esetén legfeljebb 2000 oldal dolgozható fel (ingyenes szintű előfizetéssel csak az első két oldal dolgozható fel).
A dokumentumok elemzéséhez használt fájlméret 500 MB a fizetős (S0) és 4 MB az ingyenes (F0) szint esetén.
A képméreteknek 50 x 50 képpont és 10 000 képpont x 10 000 képpont között kell lenniük.
Ha a PDF-eket jelszó védi, akkor beküldés előtt el kell távolítania a védelmet.
A kinyerni kívánt szöveg minimális magassága 12 képpont egy 1024 x 768 képpontos képhez. Ez a dimenzió körülbelül
8
-pont szövegnek felel meg 150 pont/hüvelyk (DPI
).Egyéni modell betanítása esetén a betanítási adatok oldalainak maximális száma az egyéni sablonmodell esetében 500, az egyéni neurális modell esetében pedig 50 000.
Egyéni extrakciós modell betanítása esetén a betanítási adatok teljes mérete sablonmodell esetén 50 MB, a neurális modell esetében pedig 1G-MB.
Egyéni besorolási modell betanítása esetén a betanítási adatok
1GB
teljes mérete legfeljebb 10 000 oldal lehet.
Modell betanítása
Az egyéni sablonmodellek általánosan elérhetők a 2.0-s és újabb API-verzióktól kezdve. Ha új projekttel kezd, vagy meglévő címkézett adatkészlettel rendelkezik, a Document Intelligence Studióval a 3.1-es vagy 3.0-s verziójú API-val taníthat be egyéni sablonmodelleket.
Modell | REST API | SDK | Címkék és tesztelési modellek |
---|---|---|---|
Egyéni sablon | v3.1 API | Dokumentumintelligencia SDK | Document Intelligence Studio |
A 3.0-s és újabb API-k használatával a modell betanítására irányuló buildelési művelet támogatja az új buildMode
tulajdonságot, az egyéni sablonmodell betanításához állítsa a buildMode
következőre template
.
https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview
{
"modelId": "string",
"description": "string",
"buildMode": "template",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
Az egyéni sablonmodellek általánosan elérhetők a v3.1 API-val. Ha új projekttel kezd, vagy meglévő címkézett adatkészlettel rendelkezik, a Document Intelligence Studióval a 3.1-es vagy 3.0-s verziójú API-val taníthat be egyéni sablonmodelleket.
Modell | REST API | SDK | Címkék és tesztelési modellek |
---|---|---|---|
Egyéni sablon | v3.1 API | Dokumentumintelligencia SDK | Document Intelligence Studio |
A 3.0-s és újabb API-k használatával a modell betanítására irányuló buildelési művelet támogatja az új buildMode
tulajdonságot, az egyéni sablonmodell betanításához állítsa a buildMode
következőre template
.
https://{endpoint}/formrecognizer/documentModels:build?api-version=2023-07-31
{
"modelId": "string",
"description": "string",
"buildMode": "template",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
Támogatott nyelvek és területi beállítások
A támogatott nyelvek teljes listáját a Nyelvi támogatás – egyéni modellek oldalon találja.
Az egyéni (sablon)modellek általánosan elérhetők a v2.1 API-val.
Modell | REST API | SDK | Címkék és tesztelési modellek |
---|---|---|---|
Egyéni modell (sablon) | Dokumentumintelligencia 2.1 | Dokumentumintelligencia SDK | Dokumentumintelligencia-mintacímkéző eszköz |
Következő lépések
Ismerje meg, hogyan hozhat létre és írhat egyéni modelleket: