Dokumentumintelligencia-szerződés modellje

Cikk
10/17/2024

Fontos

A Document Intelligence nyilvános előzetes verziójú kiadásai korai hozzáférést biztosítanak az aktív fejlesztés alatt lévő funkciókhoz. A funkciók, a megközelítések és a folyamatok az általános rendelkezésre állás (GA) előtt változhatnak a felhasználói visszajelzések alapján.
A Document Intelligence ügyfélkódtárak nyilvános előzetes verziója alapértelmezés szerint a REST API 2024-07-31-preview verziója.
A nyilvános előzetes verzió 2024-07-31 előzetes verziója jelenleg csak a következő Azure-régiókban érhető el. Vegye figyelembe, hogy az AI Studio egyéni generatív (dokumentummező-kinyerési) modellje csak az USA északi középső régiójában érhető el:
- USA keleti régiója
- USA2 nyugati régiója
- Nyugat-Európa
- USA északi középső régiója

Ez a tartalom a következőre vonatkozik: v4.0 (előzetes verzió) | Korábbi verzió: v3.1 (GA)

Ez a tartalom a következőre vonatkozik: v3.1 (GA) | Legújabb verzió: v4.0 (előzetes verzió)

A dokumentumintelligencia-szerződésmodell hatékony optikai karakterfelismerési (OCR) képességeket használ a fontos szerződéses entitások kiválasztott csoportjából származó kulcsmezők és sorelemek elemzésére és kinyerésére. A szerződések különböző formátumúak és minőségűek lehetnek, beleértve a telefonon rögzített képeket, a beolvasott dokumentumokat és a digitális PDF-eket. Az API elemzi a dokumentum szövegét; kinyeri az olyan kulcsfontosságú információkat, mint a felek, a joghatóságok, a szerződés azonosítója és a cím; és strukturált JSON-adatábrázolást ad vissza. A modell jelenleg támogatja az angol nyelvű dokumentumformátumokat.

Automatizált szerződésfeldolgozás

Az automatizált szerződésfeldolgozás a kulcsfontosságú szerződésmezők dokumentumokból való kinyerésének folyamata. A szerződéselemzési folyamatot korábban manuálisan, tehát nagyon időigényesen érik el. A kulcsadatok szerződésekből való pontos kinyerése általában a szerződésautomatizálási folyamat első és egyik legkritikusabb lépése.

Fejlesztési lehetőségek

A Document Intelligence v4.0 (2024-07-31-preview) a következő eszközöket, alkalmazásokat és kódtárakat támogatja:

Szolgáltatás	Források	Modellazonosító
Szerződési modell	• Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	előre összeállított szerződés

A Document Intelligence v3.1 a következő eszközöket, alkalmazásokat és kódtárakat támogatja:

Szolgáltatás	Források	Modellazonosító
Szerződési modell	• Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	előre összeállított szerződés

A Document Intelligence 3.0-s verzió a következő eszközöket, alkalmazásokat és kódtárakat támogatja:

Szolgáltatás	Források	Modellazonosító
Szerződési modell	• Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	előre összeállított szerződés

Bemeneti követelmények

Támogatott fájlformátumok:

Modell	PDF	Kép: `JPEG/JPG`, `PNG`, `BMP`, `TIFFHEIF`	Microsoft Office: Word (`DOCX`), Excel (`XLSX`), PowerPoint (`PPTX`), HTML
Olvasás	✔	✔	✔
Elrendezés	✔	✔	✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
Általános dokumentum	✔	✔
Előre összeállított	✔	✔
Egyéni kinyerés	✔	✔
Egyéni besorolás	✔	✔	✔ (2024-07-31-preview, 2024-02-29-preview)

A legjobb eredmény érdekében dokumentumonként egy tiszta fényképet vagy kiváló minőségű vizsgálatot biztosít.
PDF és TIFF esetén legfeljebb 2000 oldal dolgozható fel (ingyenes szintű előfizetéssel csak az első két oldal dolgozható fel).
A dokumentumok elemzéséhez használt fájlméret 500 MB a fizetős (S0) szint, az 4 ingyenes (F0) szint esetén pedig MB.
A képméreteknek 50 képpont x 50 képpont és 10 000 képpont x 10 000 képpont között kell lenniük.
Ha a PDF-eket jelszó védi, akkor beküldés előtt el kell távolítania a védelmet.
A kinyerni kívánt szöveg minimális magassága 12 képpont egy 1024 x 768 képpontos képhez. Ez a dimenzió körülbelül 8 150 pont/hüvelyk (DPI) pontszövegnek felel meg.
Egyéni modell betanítása esetén a betanítási adatok oldalainak maximális száma az egyéni sablonmodell esetében 500, az egyéni neurális modell esetében pedig 50 000.
- Egyéni extrakciós modell betanítása esetén a betanítási adatok teljes mérete 50 MB a sablonmodellhez, a neurális modellhez pedig 1 GB.
- Egyéni besorolási modell betanítása esetén a betanítási adatok 1 teljes mérete GB, legfeljebb 10 000 oldal. A 2024-07-31-es és újabb verziókban a betanítási adatok 2 teljes mérete GB, legfeljebb 10 000 oldal.

Szerződésdokumentumok adatkinyerésének kipróbálása

Megtudhatja, hogyan nyerik ki az adatokat, beleértve az ügyféladatokat, a szállító adatait és a sorelemeket a szerződésekből. A következő erőforrásokra van szüksége:

Azure-előfizetés – ingyenesen létrehozhat egyet.
Dokumentumintelligencia-példány az Azure Portalon. A szolgáltatás kipróbálásához használhatja az ingyenes tarifacsomagot (F0). Az erőforrás üzembe helyezése után válassza az Ugrás az erőforráshoz lehetőséget a kulcs és a végpont lekéréséhez.

Képernyőkép a kulcsok és a végpontok helyéről az Azure Portalon.

Document Intelligence Studio

A Document Intelligence Studio kezdőlapján válassza az Adódokumentumok lehetőséget.
Elemezheti a mintául szolgáló adódokumentumokat, vagy feltöltheti saját fájljait.
Válassza az Elemzés futtatása gombot, és szükség esetén konfigurálja az Elemzési beállításokat:

A Document Intelligence Studio kipróbálása

Támogatott nyelvek és területi beállítások

A támogatott nyelvek teljes listáját a Nyelvi támogatás – előre összeállított modellek oldalon találja.

Mező kinyerése

A támogatott dokumentumkinyerési mezőkért tekintse meg a szerződésmodell sémalapját a GitHub-mintaadattárban.
A kicsomagolt szerződéskulcs-érték párok és sorelemek a documentResults JSON-kimenet szakaszában találhatók.

Következő lépések

Próbálja meg feldolgozni saját űrlapjait és dokumentumait a Document Intelligence Studióval.
Végezze el a Dokumentumintelligencia rövid útmutatóját , és kezdje el létrehozni egy dokumentumfeldolgozó alkalmazást a választott fejlesztési nyelven.

Megosztás a következőn keresztül: