Dokumentumintelligencia-szerződés modellje
Fontos
- A Document Intelligence nyilvános előzetes verziójú kiadásai korai hozzáférést biztosítanak az aktív fejlesztés alatt lévő funkciókhoz. A funkciók, a megközelítések és a folyamatok az általános rendelkezésre állás (GA) előtt változhatnak a felhasználói visszajelzések alapján.
- A Document Intelligence ügyfélkódtárak nyilvános előzetes verziója alapértelmezés szerint a REST API 2024-07-31-preview verziója.
- A nyilvános előzetes verzió 2024-07-31 előzetes verziója jelenleg csak a következő Azure-régiókban érhető el. Vegye figyelembe, hogy az AI Studio egyéni generatív (dokumentummező-kinyerési) modellje csak az USA északi középső régiójában érhető el:
- USA keleti régiója
- USA2 nyugati régiója
- Nyugat-Európa
- USA északi középső régiója
Ez a tartalom a következőre vonatkozik: v4.0 (előzetes verzió) | Korábbi verzió: v3.1 (GA)
Ez a tartalom a következőre vonatkozik: v3.1 (GA) | Legújabb verzió: v4.0 (előzetes verzió)
A dokumentumintelligencia-szerződésmodell hatékony optikai karakterfelismerési (OCR) képességeket használ a fontos szerződéses entitások kiválasztott csoportjából származó kulcsmezők és sorelemek elemzésére és kinyerésére. A szerződések különböző formátumúak és minőségűek lehetnek, beleértve a telefonon rögzített képeket, a beolvasott dokumentumokat és a digitális PDF-eket. Az API elemzi a dokumentum szövegét; kinyeri az olyan kulcsfontosságú információkat, mint a felek, a joghatóságok, a szerződés azonosítója és a cím; és strukturált JSON-adatábrázolást ad vissza. A modell jelenleg támogatja az angol nyelvű dokumentumformátumokat.
Automatizált szerződésfeldolgozás
Az automatizált szerződésfeldolgozás a kulcsfontosságú szerződésmezők dokumentumokból való kinyerésének folyamata. A szerződéselemzési folyamatot korábban manuálisan, tehát nagyon időigényesen érik el. A kulcsadatok szerződésekből való pontos kinyerése általában a szerződésautomatizálási folyamat első és egyik legkritikusabb lépése.
Fejlesztési lehetőségek
A Document Intelligence v4.0 (2024-07-31-preview) a következő eszközöket, alkalmazásokat és kódtárakat támogatja:
Szolgáltatás | Források | Modellazonosító |
---|---|---|
Szerződési modell | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
előre összeállított szerződés |
A Document Intelligence v3.1 a következő eszközöket, alkalmazásokat és kódtárakat támogatja:
Szolgáltatás | Források | Modellazonosító |
---|---|---|
Szerződési modell | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
előre összeállított szerződés |
A Document Intelligence 3.0-s verzió a következő eszközöket, alkalmazásokat és kódtárakat támogatja:
Szolgáltatás | Források | Modellazonosító |
---|---|---|
Szerződési modell | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
előre összeállított szerződés |
Bemeneti követelmények
Támogatott fájlformátumok:
Modell PDF Kép: JPEG/JPG
,PNG
,BMP
,TIFF
HEIF
Microsoft Office:
Word (DOCX
), Excel (XLSX
), PowerPoint (PPTX
), HTMLOlvasás ✔ ✔ ✔ Elrendezés ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview) Általános dokumentum ✔ ✔ Előre összeállított ✔ ✔ Egyéni kinyerés ✔ ✔ Egyéni besorolás ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview) A legjobb eredmény érdekében dokumentumonként egy tiszta fényképet vagy kiváló minőségű vizsgálatot biztosít.
PDF és TIFF esetén legfeljebb 2000 oldal dolgozható fel (ingyenes szintű előfizetéssel csak az első két oldal dolgozható fel).
A dokumentumok elemzéséhez használt fájlméret 500 MB a fizetős (S0) szint, az
4
ingyenes (F0) szint esetén pedig MB.A képméreteknek 50 képpont x 50 képpont és 10 000 képpont x 10 000 képpont között kell lenniük.
Ha a PDF-eket jelszó védi, akkor beküldés előtt el kell távolítania a védelmet.
A kinyerni kívánt szöveg minimális magassága 12 képpont egy 1024 x 768 képpontos képhez. Ez a dimenzió körülbelül
8
150 pont/hüvelyk (DPI) pontszövegnek felel meg.Egyéni modell betanítása esetén a betanítási adatok oldalainak maximális száma az egyéni sablonmodell esetében 500, az egyéni neurális modell esetében pedig 50 000.
Egyéni extrakciós modell betanítása esetén a betanítási adatok teljes mérete 50 MB a sablonmodellhez, a neurális modellhez pedig
1
GB.Egyéni besorolási modell betanítása esetén a betanítási adatok
1
teljes mérete GB, legfeljebb 10 000 oldal. A 2024-07-31-es és újabb verziókban a betanítási adatok2
teljes mérete GB, legfeljebb 10 000 oldal.
Szerződésdokumentumok adatkinyerésének kipróbálása
Megtudhatja, hogyan nyerik ki az adatokat, beleértve az ügyféladatokat, a szállító adatait és a sorelemeket a szerződésekből. A következő erőforrásokra van szüksége:
Azure-előfizetés – ingyenesen létrehozhat egyet.
Dokumentumintelligencia-példány az Azure Portalon. A szolgáltatás kipróbálásához használhatja az ingyenes tarifacsomagot (
F0
). Az erőforrás üzembe helyezése után válassza az Ugrás az erőforráshoz lehetőséget a kulcs és a végpont lekéréséhez.
Document Intelligence Studio
A Document Intelligence Studio kezdőlapján válassza az Adódokumentumok lehetőséget.
Elemezheti a mintául szolgáló adódokumentumokat, vagy feltöltheti saját fájljait.
Válassza az Elemzés futtatása gombot, és szükség esetén konfigurálja az Elemzési beállításokat:
Támogatott nyelvek és területi beállítások
A támogatott nyelvek teljes listáját a Nyelvi támogatás – előre összeállított modellek oldalon találja.
Mező kinyerése
A támogatott dokumentumkinyerési mezőkért tekintse meg a szerződésmodell sémalapját a GitHub-mintaadattárban.
A kicsomagolt szerződéskulcs-érték párok és sorelemek a
documentResults
JSON-kimenet szakaszában találhatók.
Következő lépések
Próbálja meg feldolgozni saját űrlapjait és dokumentumait a Document Intelligence Studióval.
Végezze el a Dokumentumintelligencia rövid útmutatóját , és kezdje el létrehozni egy dokumentumfeldolgozó alkalmazást a választott fejlesztési nyelven.