Dokumentumintelligencia egyéni modelljei

Cikk
10/16/2024

Fontos

A Document Intelligence nyilvános előzetes verziójú kiadásai korai hozzáférést biztosítanak az aktív fejlesztés alatt lévő funkciókhoz. A funkciók, a megközelítések és a folyamatok az általános rendelkezésre állás (GA) előtt változhatnak a felhasználói visszajelzések alapján.
A Document Intelligence ügyfélkódtárak nyilvános előzetes verziója alapértelmezés szerint a REST API 2024-07-31-preview verziója.
A nyilvános előzetes verzió 2024-07-31 előzetes verziója jelenleg csak a következő Azure-régiókban érhető el. Vegye figyelembe, hogy az AI Studio egyéni generatív (dokumentummező-kinyerési) modellje csak az USA északi középső régiójában érhető el:
- USA keleti régiója
- USA2 nyugati régiója
- Nyugat-Európa
- USA északi középső régiója

Ez a tartalom a következőre vonatkozik: v4.0 (előzetes verzió) | Korábbi verziók: v3.1 (GA) v3.0 (GA) v2.1 (GA)

Ez a tartalom a következőre vonatkozik: v3.1 (GA) | Legújabb verzió: v4.0 (előzetes verzió) | Korábbi verziók: v3.0 v2.1

Ez a tartalom a következőre vonatkozik: v3.0 (GA) | Legújabb verziók: v4.0 (előzetes verzió) v3.1 | Korábbi verzió: 2.1-es verzió

Ez a tartalom a következőre vonatkozik: v2.1 | Legújabb verzió: 4.0-s verzió (előzetes verzió)

A Dokumentumintelligencia fejlett gépi tanulási technológiát használ a dokumentumok azonosítására, az űrlapok és dokumentumok információinak észlelésére és kinyerésére, valamint a kinyert adatok strukturált JSON-kimenetben való visszaadására. A Dokumentumintelligencia segítségével dokumentumelemzési modelleket, előre összeállított/előre betanított vagy betanított önálló egyéni modelleket használhat.

Az egyéni modellek mostantól egyéni besorolási modelleket is tartalmaznak olyan forgatókönyvekhez, ahol a kinyerési modell meghívása előtt azonosítania kell a dokumentumtípust. Az osztályozó modellek az 2023-07-31 (GA) API-tól kezdve érhetők el. A besorolási modell egyéni extrakciós modellel párosítható a vállalatra jellemző űrlapok és dokumentumok mezőinek elemzéséhez és kinyeréséhez. Önálló egyéni extrakciós modellek kombinálhatók a komponált modellek létrehozásához.

Egyéni dokumentummodell-típusok

Az egyéni dokumentummodellek két típus, egyéni sablon vagy egyéni űrlap, valamint egyéni neurális vagy egyéni dokumentummodellek lehetnek. Mindkét modell címkézési és betanítási folyamata azonos, de a modellek a következőképpen különböznek:

Egyéni extrakciós modellek

Egyéni kinyerési modell létrehozásához címkézzen fel egy dokumentum adathalmazát a kinyerni kívánt értékekkel, és tanítsa be a modellt a címkézett adathalmazra. Az első lépésekhez csak öt, azonos űrlap- vagy dokumentumtípusú példára van szüksége.

Egyéni neurális modell

Fontos

A 4.0-s (2024-02-29 előzetes verziójú) API-tól kezdve az egyéni neurális modellek mostantól támogatják az átfedésben lévő mezőket és táblázat-, sor- és cellaszintű megbízhatóságot.

Az egyéni neurális (egyéni dokumentum) modell mélytanulási modelleket és nagy dokumentumgyűjteményeken betanított alapmodellt használ. Ezt a modellt ezután finomhangolja vagy az adatokhoz igazítja, amikor címkézett adatkészlettel tanítja be a modellt. Az egyéni neurális modellek támogatják a kulcsfontosságú adatmezők kinyerését strukturált, félig strukturált és strukturálatlan dokumentumokból. Amikor a két modelltípus közül választ, kezdje egy neurális modellel annak megállapításához, hogy megfelel-e a funkcionális igényeinek. Az egyéni dokumentummodellekkel kapcsolatos további információkért tekintse meg a neurális modelleket .

Egyéni sablonmodell

Az egyéni sablon vagy egyéni űrlapmodell egy konzisztens vizualizációs sablonra támaszkodik a címkézett adatok kinyeréséhez. A dokumentumok vizuális szerkezetének eltérései befolyásolják a modell pontosságát. A strukturált űrlapok, például a kérdőívek vagy az alkalmazások konzisztens vizualizációs sablonok.

A betanítási csoport strukturált dokumentumokból áll, amelyek formázása és elrendezése statikus és állandó az egyik dokumentumpéldánytól a következőig. Az egyéni sablonmodellek támogatják a kulcs-érték párokat, a kijelölési jeleket, a táblákat, az aláírásmezőket és a régiókat. Sablonmodellek, és bármely támogatott nyelven betanított dokumentumokon. További információ: egyéni sablonmodellek.

Ha a dokumentumok nyelve és a kinyerési forgatókönyvek támogatják az egyéni neurális modelleket, javasoljuk, hogy a nagyobb pontosság érdekében egyéni neurális modelleket használjon sablonmodellek fölé.

Tipp.

Annak ellenőrzéséhez, hogy a betanítási dokumentumok egységes vizualizációs sablont mutatnak-e, távolítsa el a felhasználó által megadott összes adatot a készlet minden űrlapjáról. Ha az üres űrlapok megjelenése megegyezik, akkor egységes vizualizációs sablont jelölnek.

További információ: Az egyéni modellek pontosságának és megbízhatóságának értelmezése és javítása.

Bemeneti követelmények

A legjobb eredmény érdekében dokumentumonként egy tiszta fényképet vagy kiváló minőségű vizsgálatot biztosít.

Támogatott fájlformátumok:

Modell	PDF	Kép: `jpeg/jpg`, `png`, `bmp`, `tiffheif`	Microsoft Office: Word (docx), Excel (xlsx), PowerPoint (pptx)
Olvasás	✔	✔	✔
Elrendezés	✔	✔	✔ (2024-02-29-preview, 2023-10-31-preview és újabb)
Általános dokumentum	✔	✔
Előre összeállított	✔	✔
Egyéni kinyerés	✔	✔
Egyéni besorolás	✔	✔	✔

✱ A Microsoft Office-fájlok jelenleg nem támogatottak más modellekhez vagy verziókhoz.

PDF és TIFF esetén legfeljebb 2000 oldal dolgozható fel (ingyenes szintű előfizetéssel csak az első két oldal dolgozható fel).
A dokumentumok elemzéséhez használt fájlméret 500 MB a fizetős (S0) és 4 MB az ingyenes (F0) szint esetén.
A képméreteknek 50 x 50 képpont és 10 000 képpont x 10 000 képpont között kell lenniük.
Ha a PDF-eket jelszó védi, akkor beküldés előtt el kell távolítania a védelmet.
A kinyerni kívánt szöveg minimális magassága 12 képpont egy 1024 x 768 képpontos képhez. Ez a dimenzió körülbelül 8150 pont/hüvelyk méretű pont szövegnek felel meg.
Egyéni modell betanítása esetén a betanítási adatok oldalainak maximális száma az egyéni sablonmodell esetében 500, az egyéni neurális modell esetében pedig 50 000.
Egyéni extrakciós modell betanítása esetén a betanítási adatok teljes mérete sablonmodell esetén 50 MB, a neurális modell esetében pedig 1G-MB.
Egyéni besorolási modell betanítása esetén a betanítási adatok 1GB teljes mérete legfeljebb 10 000 oldal lehet.

Optimális betanítási adatok

A betanítási bemeneti adatok minden gépi tanulási modell alapjai. Meghatározza a modell minőségét, pontosságát és teljesítményét. Ezért kulcsfontosságú, hogy a dokumentumintelligencia-projekthez a lehető legjobb betanítási bemeneti adatokat hozza létre. A Dokumentumintelligencia egyéni modell használatakor saját betanítási adatokat kell megadnia. Íme néhány tipp a modellek hatékony betanítása érdekében:

Ha lehetséges, szövegalapút használjon képalapú PDF-fájlok helyett. A képalapú PDF-fájlok azonosításának egyik módja, ha megpróbál kijelölni egy adott szöveget a dokumentumban. Ha csak a szöveg teljes képét tudja kijelölni, a dokumentum képalapú, nem szövegalapú.
A betanítási dokumentumokat egy almappával rendezheti minden formátumhoz (JPEG/JPG, PNG, BMP, PDF vagy TIFF).
Olyan űrlapokat használjon, amelyekben az összes elérhető mező befejeződött.
Használjon különböző értékeket tartalmazó űrlapokat az egyes mezőkben.
Használjon nagyobb adatkészletet (ötnél több betanítási dokumentumot), ha a képek minősége alacsony.
Állapítsa meg, hogy egyetlen vagy több modellre van-e szükség, amely egyetlen modellbe van-e beosztva.
Fontolja meg az adathalmaz mappákba való szegmentálását, ahol minden mappa egyedi sablon. Egy modell betanítása mappánként, és az eredményül kapott modellek egyetlen végpontba írása. A modell pontossága csökkenhet, ha különböző formátumokat elemez egyetlen modellel.
Fontolja meg az adathalmaz szegmentálását több modell betanításához, ha az űrlap formátumokkal és oldaltörésekkel rendelkezik. Az egyéni űrlapok konzisztens vizualizációs sablonra támaszkodnak.
Győződjön meg arról, hogy kiegyensúlyozott adatkészlettel rendelkezik a formátumok, a dokumentumtípusok és a struktúra számba adásával.

Összeállítási mód

A build custom model művelet támogatja a sablont és a neurális egyéni modelleket. A REST API és az ügyfélkódtárak korábbi verziói csak egyetlen buildelési módot támogattak, amelyet most sablon módnak neveznek.

A sablonmodellek csak olyan dokumentumokat fogadnak el, amelyek alapszintű lapszerkezettel – egységes vizualizációs megjelenéssel – vagy a dokumentum elemeinek relatív elhelyezkedésével rendelkeznek.
A neurális modellek olyan dokumentumokat támogatnak, amelyek ugyanazokat az információkat, de különböző lapstruktúrákat tartalmaznak. Ilyen dokumentumok például Egyesült Államok W2-űrlapok, amelyek ugyanazokat az információkat tartalmazzák, de megjelenésük vállalatonként eltérő.

Ez a táblázat a buildelési mód programozási nyelv SDK-hivatkozásaira és kódmintákra mutató hivatkozásokat tartalmaz a GitHubon:

Programozási nyelv	SDK-referencia	Kódminta
C#/.NET	DocumentBuildMode Struct	Sample_BuildCustomModelAsync.cs
Java	DocumentBuildMode osztály	BuildModel.java
JavaScript	DocumentBuildMode típus	buildModel.js
Python	DocumentBuildMode Enum	sample_build_model.py

Modellfunkciók összehasonlítása

Az alábbi táblázat az egyéni sablonokat és az egyéni neurális funkciókat hasonlítja össze:

Szolgáltatás	Egyéni sablon (űrlap)	Egyéni neurális (dokumentum)
Dokumentumstruktúra	Sablon, űrlap és strukturált	Strukturált, részben strukturált és strukturálatlan
Betanítási idő	1–5 perc	20 perc és 1 óra között
Adatkinyerés	Kulcs-érték párok, táblák, kijelölési jelek, koordináták és aláírások	Kulcs-érték párok, kijelölési jelek és táblák
Átfedésben lévő mezők	Nem támogatott	Támogatott
Dokumentumvariációk	Minden változathoz modell szükséges	Egyetlen modellt használ az összes változathoz
Nyelvi támogatás	Nyelvi támogatás egyéni sablon	Nyelvi támogatás egyéni neurális

Egyéni besorolási modell

A dokumentumbesorolás egy új forgatókönyv, amelyet a Dokumentumintelligencia a 2023-07-31 (v3.1 GA) API-val támogat. A dokumentumosztályozó API támogatja a besorolási és felosztási forgatókönyveket. Betanítsa a besorolási modellt az alkalmazás által támogatott különböző típusú dokumentumok azonosításához. A besorolási modell bemeneti fájlja több dokumentumot tartalmazhat, és osztályozza az egyes dokumentumokat egy társított oldaltartományon belül. További információkért tekintse meg az egyéni besorolási modelleket.

Feljegyzés

Az API-verziójú dokumentumbesorolás mostantól támogatja az 2024-02-29-preview Office-dokumentumtípusokat a besoroláshoz. Ez az API-verzió a besorolási modell növekményes betanítását is bevezeti.

Egyéni modelleszközök

A Document Intelligence 3.1-s és újabb verziói a következő eszközöket, alkalmazásokat és kódtárakat, programokat és kódtárakat támogatják:

Szolgáltatás	Források	Modellazonosító
Egyéni modell	• Document Intelligence Studio • REST API • C# SDK • Python SDK	custom-model-id

Egyéni modell életciklusa

Az egyéni modellek életciklusa a betanított API-verziótól függ. Ha az API-verzió egy általános rendelkezésre állási (GA) verzió, az egyéni modell életciklusa megegyezik az adott verzióéval. Az egyéni modell nem használható következtetésre az API-verzió elavultsága esetén. Ha az API-verzió egy előzetes verzió, az egyéni modell életciklusa megegyezik az API előzetes verziójával.

A Document Intelligence v2.1 a következő eszközöket, alkalmazásokat és kódtárakat támogatja:

Feljegyzés

Az egyéni modelltípusok egyéni neurális és egyéni sablonok a Document Intelligence 3.1-es és 3.0-s verziójú API-ival érhetők el.

Szolgáltatás	Források
Egyéni modell	• Dokumentumintelligencia-címkézési eszköz • REST API • Ügyfélkódtár SDK • Dokumentumintelligencia Docker-tároló

Egyéni modell létrehozása

Adatok kinyerése adott vagy egyedi dokumentumokból egyéni modellek használatával. A következő erőforrásokra van szüksége:

Azure-előfizetés. Ingyenesen létrehozhat egyet.
Dokumentumintelligencia-példány az Azure Portalon. A szolgáltatás kipróbálásához használhatja az ingyenes tarifacsomagot (F0). Az erőforrás üzembe helyezése után válassza az Ugrás az erőforráshoz lehetőséget a kulcs és a végpont lekéréséhez.

Mintacímkéző eszköz

Tipp.

A továbbfejlesztett felhasználói élmény és a fejlett modellminőség érdekében próbálja ki a Document Intelligence v3.0 Studiót.
A v3.0 Studio támogatja a v2.1 címkével ellátott adatokkal betanított modelleket.
A 2.1-es verzióról a 3.0-s verzióra való migrálással kapcsolatos részletes információkért tekintse meg az API migrálási útmutatójában.
Tekintse meg a REST API-t vagy a C#-, Java-, JavaScript- vagy Python SDK-t. /rövid útmutatók a 3.0-s verzió használatának megkezdéséhez.

A Dokumentumintelligencia-mintacímkéző eszköz egy nyílt forráskód eszköz, amellyel tesztelheti a dokumentumintelligencia és az optikai karakterfelismerés (OCR) funkcióinak legújabb funkcióit.
Az egyéni modellek létrehozásának és használatának megkezdéséhez próbálja ki a Mintacímkézés eszköz rövid útmutatót .

Document Intelligence Studio

Feljegyzés

A Document Intelligence Studio 3.1-s és 3.0-s verziójú API-kkal érhető el.

A Document Intelligence Studio kezdőlapján válassza az Egyéni kinyerési modellek lehetőséget.
A Saját projektek csoportban válassza a Projekt létrehozása lehetőséget.
Töltse ki a projekt részleteit tartalmazó mezőket.
Konfigurálja a szolgáltatáserőforrást úgy, hogy hozzáadja a Storage-fiókot és a Blob-tárolót a betanítási adatforrás csatlakoztatásához.
Tekintse át és hozza létre a projektet.
Adja hozzá a mintadokumentumokat az egyéni modell címkézéséhez, összeállításához és teszteléséhez.

A Document Intelligence Studio kipróbálása

Az első egyéni extrakciós modell létrehozásához részletes útmutatót a Hogyan hozhat létre egyéni extrakciós modellt?

Egyéni modell kinyerésének összegzése

Ez a táblázat a támogatott adatkinyerési területeket hasonlítja össze:

Modell	Űrlapmezők	Kijelölési jelek	Strukturált mezők (táblák)	Aláírás	Régiócímkézés	Átfedésben lévő mezők
Egyéni sablon	✔	✔	✔	✔	✔	N/a
Egyéni neurális	✔	✔	✔	N/a	*	✔ (2024-02-29-preview)

Táblázatszimbólumok:
✔ —Támogatott
**n/a – Jelenleg nem érhető el;
*-Modelltől függően eltérően viselkedik. Sablonmodellekkel a betanításkor szintetikus adatok jönnek létre. Neurális modellek esetén a régióban felismert szöveg ki lesz választva.

Tipp.

Ha a két modelltípus közül választ, először egy egyéni neurális modellel kezdje, ha megfelel a funkcionális igényeinek. Az egyéni neurális modellekről további információt az egyéni neurális modellekben talál.

Egyéni modell fejlesztési lehetőségei

Az alábbi táblázat a társított eszközökkel és ügyfélkódtárakkal elérhető funkciókat ismerteti. Ajánlott eljárásként győződjön meg arról, hogy az itt felsorolt kompatibilis eszközöket használja.

Dokumentum típusa	REST API	SDK	Címkék és tesztelési modellek
Egyéni sablon v 4.0 v3.1 v3.0	Dokumentumintelligencia 3.1	Dokumentumintelligencia SDK	Document Intelligence Studio
Egyéni neurális v4.0 v3.1 v3.0	Dokumentumintelligencia 3.1	Dokumentumintelligencia SDK	Document Intelligence Studio
Egyéni űrlap v2.1	Document Intelligence 2.1 GA API	Dokumentumintelligencia SDK	Mintacímkéző eszköz

Feljegyzés

A 3.0 API-val betanított egyéni sablonmodellek néhány fejlesztéssel rendelkeznek a 2.1 API-val szemben, amelyek az OCR-motor fejlesztéseiből erednek. Az egyéni sablonmodellek 2.1 API-val történő betanításakor használt adatkészletek továbbra is használhatók egy új modell betanítása a 3.0 API használatával.

A legjobb eredmény érdekében dokumentumonként egy tiszta fényképet vagy kiváló minőségű vizsgálatot biztosít.
A támogatott fájlformátumok: JPEG/JPG, PNG, BMP, TIFF és PDF (szövegbe ágyazva vagy beolvasva). A karakterkinyerési és -elhelyezési hibák lehetőségének kizárására a beágyazott szövegű PDF-ek a legalkalmasabbak.
PDF- és TIFF-fájlok esetén legfeljebb 2000 oldal dolgozható fel. Ingyenes szintű előfizetés esetén a rendszer csak az első két oldalt dolgozza fel.
A fájlméretnek 500 MB-nál kisebbnek kell lennie a fizetős (S0) és az ingyenes (F0) szint esetén 4 MB-nál.
A képméret 50 × 50 és 10 000 × 10 000 képpont között lehet.
A PDF-méretek legfeljebb 17 x 17 hüvelyk méretűek, amelyek jogi vagy A3 papírméretnek felelnek meg, vagy kisebbek.
A betanítási adatok teljes mérete legfeljebb 500 oldal.
Ha a PDF-eket jelszó védi, akkor beküldés előtt el kell távolítania a védelmet.
Tipp.

Betanítási adatok:
- Ha lehetséges, képes dokumentumok helyett használjon szöveges PDF-dokumentumokat. A beolvasott PDF-dokumentumokat képként kezeli a rendszer.
- Kérjük, hogy dokumentumonként csak az űrlap egyetlen példányát adja meg.
- Kitöltött űrlapok esetén olyan példákat használjon, amelyekben az összes mező ki van töltve.
- Minden mezőben más értékkel rendelkező űrlapot használjon.
- Ha az űrlapképek minősége alacsonyabb, használjon nagyobb adatkészletet. Használjon például 10–15 képet.

Támogatott nyelvek és területi beállítások

A támogatott nyelvek teljes listáját a Nyelvi támogatás – egyéni modellek oldalon találja.

Következő lépések

Próbálja meg feldolgozni saját űrlapjait és dokumentumait a Dokumentumintelligencia mintacímkéző eszközzel.
Végezze el a Dokumentumintelligencia rövid útmutatóját , és kezdje el létrehozni egy dokumentumfeldolgozó alkalmazást a választott fejlesztési nyelven.

Próbálja meg feldolgozni saját űrlapjait és dokumentumait a Document Intelligence Studióval.
Végezze el a Dokumentumintelligencia rövid útmutatóját , és kezdje el létrehozni egy dokumentumfeldolgozó alkalmazást a választott fejlesztési nyelven.

Megosztás a következőn keresztül:

Dokumentumintelligencia egyéni modelljei

Egyéni dokumentummodell-típusok

Egyéni extrakciós modellek

Egyéni neurális modell

Egyéni sablonmodell

Bemeneti követelmények

Optimális betanítási adatok

Összeállítási mód

Modellfunkciók összehasonlítása

Egyéni besorolási modell

Egyéni modelleszközök

Egyéni modell életciklusa

Egyéni modell létrehozása

Mintacímkéző eszköz

Document Intelligence Studio

Egyéni modell kinyerésének összegzése

Egyéni modell fejlesztési lehetőségei

Támogatott nyelvek és területi beállítások

Következő lépések

Visszajelzés

További források