Megosztás a következőn keresztül:


Dokumentumintelligencia-elrendezési modell

Fontos

  • A Document Intelligence nyilvános előzetes verziójú kiadásai korai hozzáférést biztosítanak az aktív fejlesztés alatt lévő funkciókhoz. A funkciók, a megközelítések és a folyamatok az általános rendelkezésre állás (GA) előtt változhatnak a felhasználói visszajelzések alapján.
  • A Document Intelligence ügyfélkódtárak nyilvános előzetes verziója alapértelmezés szerint a REST API 2024-07-31-preview verziója.
  • A nyilvános előzetes verzió 2024-07-31 előzetes verziója jelenleg csak a következő Azure-régiókban érhető el. Vegye figyelembe, hogy az AI Studio egyéni generatív (dokumentummező-kinyerési) modellje csak az USA északi középső régiójában érhető el:
    • USA keleti régiója
    • USA2 nyugati régiója
    • Nyugat-Európa
    • USA északi középső régiója

Ez a tartalom a következőre vonatkozik:Sakk v4.0 (előzetes verzió) | Korábbi verziók: kék pipa v3.1 (GA) kék pipa v3.0 (GA) kék pipa v2.1 (GA)

A Dokumentumintelligencia-elrendezési modell egy fejlett, gépi tanuláson alapuló dokumentumelemzési API, amely a Dokumentumintelligencia-felhőben érhető el. Lehetővé teszi a különböző formátumú dokumentumok készítését és a dokumentumok strukturált adatábrázolásának visszaadását. A hatékony optikai karakterfelismerési (OCR) képességek továbbfejlesztett verzióját ötvözi mélytanulási modellekkel a szöveg, a táblázatok, a kijelölési jelek és a dokumentumstruktúra kinyeréséhez.

Dokumentumelrendezés elemzése (v4)

A dokumentumstruktúra elrendezésének elemzése egy dokumentum elemzésének folyamata, amely kinyeri az érdekes régiókat és azok kapcsolatait. A cél a szöveg és a szerkezeti elemek kinyerése az oldalról, hogy jobb szemantikai megértési modelleket hozzon létre. A dokumentumelrendezés két szerepkörtípust különböztet meg:

  • Geometriai szerepkörök: A szöveg, a táblázatok, az ábrák és a kijelölési jelek geometriai szerepkörökre mutatnak példákat.
  • Logikai szerepkörök: A címek, címsorok és élőlábak példák a szövegek logikai szerepköreire.

Az alábbi ábra egy mintalap képének tipikus összetevőit mutatja be.

Példa a dokumentumelrendezésre.

Fejlesztési lehetőségek (v4)

A Document Intelligence v4.0 (2024-07-31-preview) a következő eszközöket, alkalmazásokat és kódtárakat támogatja:

Szolgáltatás Források Modellazonosító
Elrendezési modell Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
előre összeállított elrendezés

Bemeneti követelmények (v4)

  • Támogatott fájlformátumok:

    Modell PDF Kép:
    JPEG/JPG, PNG, BMP, TIFFHEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
    Olvasás
    Elrendezés ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
    Általános dokumentum
    Előre összeállított
    Egyéni kinyerés
    Egyéni besorolás ✔ (2024-07-31-preview, 2024-02-29-preview)
  • A legjobb eredmény érdekében dokumentumonként egy tiszta fényképet vagy kiváló minőségű vizsgálatot biztosít.

  • PDF és TIFF esetén legfeljebb 2000 oldal dolgozható fel (ingyenes szintű előfizetéssel csak az első két oldal dolgozható fel).

  • A dokumentumok elemzéséhez használt fájlméret 500 MB a fizetős (S0) szint, az 4 ingyenes (F0) szint esetén pedig MB.

  • A képméreteknek 50 képpont x 50 képpont és 10 000 képpont x 10 000 képpont között kell lenniük.

  • Ha a PDF-eket jelszó védi, akkor beküldés előtt el kell távolítania a védelmet.

  • A kinyerni kívánt szöveg minimális magassága 12 képpont egy 1024 x 768 képpontos képhez. Ez a dimenzió körülbelül 8 150 pont/hüvelyk (DPI) pontszövegnek felel meg.

  • Egyéni modell betanítása esetén a betanítási adatok oldalainak maximális száma az egyéni sablonmodell esetében 500, az egyéni neurális modell esetében pedig 50 000.

    • Egyéni extrakciós modell betanítása esetén a betanítási adatok teljes mérete 50 MB a sablonmodellhez, a neurális modellhez pedig 1 GB.

    • Egyéni besorolási modell betanítása esetén a betanítási adatok 1 teljes mérete GB, legfeljebb 10 000 oldal. A 2024-07-31-es és újabb verziókban a betanítási adatok 2 teljes mérete GB, legfeljebb 10 000 oldal.

Az Elrendezési modell használatának első lépései

Megtudhatja, hogyan nyerik ki az adatokat, beleértve a szöveget, a táblázatfejléceket, a kijelölési jeleket és a struktúraadatokat a dokumentumokból a Dokumentumintelligencia használatával. A következő erőforrásokra van szüksége:

  • Azure-előfizetés – ingyenesen létrehozhat egyet.

  • Dokumentumintelligencia-példány az Azure Portalon. A szolgáltatás kipróbálásához használhatja az ingyenes tarifacsomagot (F0). Az erőforrás üzembe helyezése után válassza az Ugrás az erőforráshoz lehetőséget a kulcs és a végpont lekéréséhez.

    Képernyőkép a kulcsok és a végpontok helyéről az Azure Portalon.

Feljegyzés

A Document Intelligence Studio 3.0-s és újabb verziójú API-kkal érhető el.

A Document Intelligence Studióval feldolgozott mintadokumentum

Képernyőkép az

  1. A Document Intelligence Studio kezdőlapján válassza az Elrendezés lehetőséget.

  2. Elemezheti a mintadokumentumot, vagy feltöltheti saját fájljait.

  3. Válassza az Elemzés futtatása gombot, és szükség esetén konfigurálja az Elemzési beállításokat:

    Képernyőkép a Document Intelligence Studio Elemzés és elemzés beállításai gombjairól.

Támogatott nyelvek és területi beállítások (ocr)

A támogatott nyelvek teljes listáját a Nyelvi támogatás – dokumentumelemzési modellek oldalon találja.

Adatkinyerés (v4)

Az elrendezési modell szövegeket, kijelölési jeleket, táblázatokat, bekezdéseket és bekezdéstípusokat (roles) nyer ki a dokumentumokból.

Feljegyzés

2023-10-31-previewA verziók és újabb verziók 2024-02-29-previewtámogatják a Microsoft Office-t (DOCX, XLSX, PPTX) és HTML-fájlokat. A következő funkciók nem támogatottak:

  • Nincs szög, szélesség/magasság és egység az egyes oldalobjektumokkal.
  • Minden észlelt objektum esetében nincs határoló sokszög vagy határoló régió.
  • Az oldaltartomány (pages) paraméterként nem támogatott.
  • Nincs lines objektum.

Oldalak

A lapgyűjtemény a dokumentum lapjainak listája. Minden oldal egymás után jelenik meg a dokumentumban és a .. A /tartalmazza a tájolási szöget, amely jelzi, hogy az oldal elforgatva van-e, valamint a szélességet és a magasságot (képpontban megadott méretek). A modell kimenetének oldalegységei az alábbi módon lesznek kiszámítva:

Fájlformátum Számított oldalegység Összes oldal
Képek (JPEG/JPG, PNG, BMP, HEIF) Minden kép = 1 oldalegység Összes kép
PDF A PDF minden oldala = 1 oldalegység A PDF összes oldala
ÖSSZETŰZÉS A TIFF minden képe = 1 oldal Összes kép a TIFF-ben
Word (DOCX) Legfeljebb 3000 karakter = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak Legfeljebb 3000 karakter hosszúságú oldalak összesen
Excel (XLSX) Minden munkalap = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak Munkalapok összesen
PowerPoint (PPTX) Minden dia = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak Összes dia
HTML Legfeljebb 3000 karakter = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak Legfeljebb 3000 karakter hosszúságú oldalak összesen
# Analyze pages.
for page in result.pages:
print(f"----Analyzing layout from page #{page.page_number}----")
print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")

Kijelölt lapok kinyerése dokumentumokból

Nagyméretű, többoldalas dokumentumok esetén a pages lekérdezési paraméterrel konkrét oldalszámokat vagy oldaltartományokat jelölhet a szöveg kinyeréséhez.

Bekezdések

Az Elrendezési modell a gyűjtemény összes azonosított szövegblokkját legfelső szintű objektumként nyeri ki a paragraphs gyűjtemény alatt analyzeResults. A gyűjtemény minden bejegyzése egy szövegblokkot és .. A kinyert szöveg mintákatcontentés a határoló polygon koordinátákat tartalmazza. Az span információk a dokumentum teljes szövegét tartalmazó legfelső szintű content tulajdonság szövegtöredékére mutatnak.


"paragraphs": [
    {
        "spans": [],
        "boundingRegions": [],
        "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
    }
]

Bekezdésszerepkörök

Az új gépi tanuláson alapuló lapobjektum-észlelés olyan logikai szerepköröket nyer ki, mint a címek, szakaszfejlécek, oldalfejlécek, oldallábak stb. A Dokumentumintelligencia-elrendezés modell bizonyos szövegblokkokat rendel hozzá a gyűjteményhez a paragraphs modell által előrejelzett speciális szerepkörrel vagy típussal. A legjobb, ha strukturálatlan dokumentumokkal rendelkező bekezdésszerepköröket használ a kinyert tartalom elrendezésének megértéséhez a részletesebb szemantikai elemzéshez. A következő bekezdésszerepkörök támogatottak:

Előrejelzett szerepkör Leírás Támogatott fájltípusok
title A lap fő címsorai pdf, image, docx, pptx, xlsx, html
sectionHeading Egy vagy több alcím a lapon pdf, image, docx, xlsx, html
footnote Szöveg a lap alján pdf, kép
pageHeader Szöveg a lap felső széle közelében pdf, kép, docx
pageFooter Szöveg a lap alsó széle közelében pdf, image, docx, pptx, html
pageNumber Oldalszám pdf, kép
{
    "paragraphs": [
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "title",
                    "content": "NEWS TODAY"
                },
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "sectionHeading",
                    "content": "Mirjam Nilsson"
                }
    ]
}

Szöveg, sorok és szavak

A Dokumentumintelligencia dokumentumelrendezési modellje kinyeri a nyomtatott és a kézzel írt stílusszöveget.lines words A styles gyűjtemény .. A /tartalmaz minden kézzel írt stílust a sorokhoz, ha a rendszer észleli, valamint a társított szövegre mutató spanokat. Ez a funkció a támogatott kézzel írt nyelvekre vonatkozik.

Microsoft Word, Excel, PowerPoint és HTML esetén a Dokumentumintelligencia 2024-02-29-preview és a 2023-10-31 előzetes verziójú elrendezési modell az összes beágyazott szöveget kinyeri. A szövegek szavakként és bekezdésekként lesznek kinyerve. A beágyazott képek nem támogatottak.

# Analyze lines.
if page.lines:
    for line_idx, line in enumerate(page.lines):
    words = get_words(page, line)
    print(
        f"...Line # {line_idx} has word count {len(words)} and text '{line.content}' "
        f"within bounding polygon '{line.polygon}'"
    )

    # Analyze words.
    for word in words:
        print(f"......Word '{word.content}' has a confidence of {word.confidence}")

Kézzel írt stílus szövegsorokhoz

A válasz .. A /magában foglalja annak besorolását, hogy az egyes szövegsorok kézírásstílussal vagy sem, valamint egy megbízhatósági pontszámmal együtt. További tudnivalók. Lásd: Kézzel írt nyelvi támogatás. Az alábbi példa egy JSON-kódrészletet mutat be.

"styles": [
{
    "confidence": 0.95,
    "spans": [
    {
        "offset": 509,
        "length": 24
    }
    "isHandwritten": true
    ]
}

Ha engedélyezi a betűtípus-/stílus hozzáadása funkciót, akkor az objektum részeként is megkapja a styles betűtípus/stílus eredményét.

Kijelölési jelek

Az Elrendezési modell kijelölési jeleket is kinyer a dokumentumokból. A kinyert kijelölési jelek az egyes lapok gyűjteményében pages jelennek meg. Ezek közé tartozik a határolókeret polygon, confidenceés a kijelölés state (selected/unselected). A szövegábrázolás (vagyis :selected: :unselected) is szerepel a kezdőindexben (offset), és length a dokumentum teljes szövegét tartalmazó legfelső szintű content tulajdonságra hivatkozik.

# Analyze selection marks.
if page.selection_marks:
    for selection_mark in page.selection_marks:
        print(
            f"Selection mark is '{selection_mark.state}' within bounding polygon "
            f"'{selection_mark.polygon}' and has a confidence of {selection_mark.confidence}"
        )

Táblák

A táblák kinyerése kulcsfontosságú követelmény a nagy mennyiségű adatot tartalmazó dokumentumok feldolgozásához, amelyek általában táblákként formázhatók. Az Elrendezési modell a JSON-kimenet szakaszában pageResults lévő táblákat nyeri ki. Kinyert táblaadatok .. A /tartalmazza az oszlopok és sorok számát, a sorokat és az oszlopfedéseket. A határoló sokszöggel rendelkező cellák kimenete és annak információi, hogy a terület felismerhető-e columnHeader vagy sem. A modell támogatja az elforgatott táblák kinyerését. Minden táblázatcella tartalmazza a sor- és oszlopindexet, valamint a határoló sokszög koordinátáit. A cellaszöveg esetében a modell a kezdő indexet (offset) tartalmazó információkat adja kispan. A modell a length dokumentum teljes szövegét tartalmazó legfelső szintű tartalomon belül is kimenetet ad ki.

Az alábbiakban néhány tényezőt érdemes figyelembe venni a Dokumentumintelligencia bála kinyerési funkciójának használatakor:

  • A kinyerni kívánt adatok táblázatként jelennek meg, és értelmezhető a táblastruktúra?

  • Elférnek az adatok egy kétdimenziós rácsban, ha az adatok nem táblázatos formátumúak?

  • A táblák több oldalra is kiterjednek? Ha igen, az összes oldal címkézésének elkerülése érdekében ossza fel a PDF-fájlt oldalakra, mielőtt elküldené a dokumentumintelligencia-nak. Az elemzés után az oldalakat egyetlen táblába kell feldolgozni.

  • Ha egyéni modelleket hoz létre, tekintse meg a táblázatos mezőket . A dinamikus táblák minden oszlophoz változó számú sort tartalmaznak. A rögzített táblák minden oszlophoz állandó számú sort tartalmaznak.

Feljegyzés

  • A táblaelemzés nem támogatott, ha a bemeneti fájl XLSX.
  • A 2024-07-31 előzetes verziótól kezdődően az ábrák és táblázatok határterületei csak az alaptartalmat fedik le, és kizárják a kapcsolódó feliratokat és lábjegyzeteket.
if result.tables:
    for table_idx, table in enumerate(result.tables):
        print(f"Table # {table_idx} has {table.row_count} rows and " f"{table.column_count} columns")
        if table.bounding_regions:
            for region in table.bounding_regions:
                print(f"Table # {table_idx} location on page: {region.page_number} is {region.polygon}")
        # Analyze cells.
        for cell in table.cells:
            print(f"...Cell[{cell.row_index}][{cell.column_index}] has text '{cell.content}'")
            if cell.bounding_regions:
                for region in cell.bounding_regions:
                print(f"...content on page {region.page_number} is within bounding polygon '{region.polygon}'")

Kimenet markdown formátumba

Az Layout API markdown formátumban tudja kiírni a kinyert szöveget. A kimenet formátumának megadásához használja a outputContentFormat=markdown markdownt. A Markdown-tartalom a szakasz részeként jelenik meg content .

Feljegyzés

A 2024-07-31 előzetes verziótól kezdődően a táblák megjelenítése HTML-táblákra változik, így lehetővé válik az egyesített cellák, többsoros fejlécek stb. renderelése. Egy másik kapcsolódó módosítás a Unicode jelölőnégyzetkarakterek ☒ és ☐ a kijelölési jelek használata a :selected: és a :unselected: helyett. Vegye figyelembe, hogy ez azt jelenti, hogy a kijelölési jel mezőinek tartalma a következőt fogja tartalmazni: kijelölve: annak ellenére, hogy a spanok Unicode-karakterekre hivatkoznak a legfelső szintű hatókörben.

document_intelligence_client = DocumentIntelligenceClient(endpoint=endpoint, credential=AzureKeyCredential(key))
poller = document_intelligence_client.begin_analyze_document(
    "prebuilt-layout",
    AnalyzeDocumentRequest(url_source=url),
    output_content_format=ContentFormat.MARKDOWN,
)

Számok

A dokumentumokban szereplő ábrák (diagramok, képek) kulcsfontosságú szerepet játszanak a szöveges tartalom kiegészítésében és javításában, és olyan vizuális ábrázolásokat biztosítanak, amelyek elősegítik az összetett információk megértését. Az Elrendezési modell által észlelt ábraobjektum olyan kulcsfontosságú tulajdonságokkal rendelkezik, mint például boundingRegions (a dokumentumoldalakon lévő ábra térbeli helyei, beleértve az oldalszámot és az ábra határát tagoló sokszög koordinátákat), spans (az ábrához kapcsolódó szövegtartományokat részletezi, megadva azok eltolásait és hosszát a dokumentum szövegében. Ez a kapcsolat segít társítani az ábrát a megfelelő szöveges környezettel, elements (a dokumentum szöveges elemeinek vagy bekezdéseinek azonosítóit, amelyek az ábrához kapcsolódnak vagy írják le) és caption ha vannak ilyenek.

Ha a kezdeti elemzési művelet során az output=számok meg lesznek adva, a szolgáltatás levágott képeket hoz létre az összes észlelt adathoz, amelyek a következőn keresztül /analyeResults/{resultId}/figures/{figureId}érhetők el. FigureId minden ábraobjektum tartalmazza, egy nem dokumentált konvencióval {pageNumber}.{figureIndex} , amely figureIndex szerint a laponként egy értékre állítható vissza.

Feljegyzés

A 2024-07-31 előzetes verziótól kezdődően az ábrák és táblázatok határterületei csak az alaptartalmat fedik le, és kizárják a kapcsolódó feliratokat és lábjegyzeteket.

# Analyze figures.
if result.figures:
    for figures_idx,figures in enumerate(result.figures):
        print(f"Figure # {figures_idx} has the following spans:{figures.spans}")
        for region in figures.bounding_regions:
            print(f"Figure # {figures_idx} location on page:{region.page_number} is within bounding polygon '{region.polygon}'")

Szakaszok

A hierarchikus dokumentumstruktúra-elemzés kulcsfontosságú a kiterjedt dokumentumok rendszerezésében, megértésében és feldolgozásában. Ez a megközelítés elengedhetetlen a hosszú dokumentumok szemantikai szegmentálásához a megértés fokozása, a navigáció megkönnyítése és az információlekérés javítása érdekében. A dokumentumgeneratív AI-ben a lekéréses kiterjesztett generáció (RAG) megjelenése kiemeli a hierarchikus dokumentumstruktúra-elemzés jelentőségét. Az Elrendezési modell támogatja a kimenet szakaszait és alszakaszait, amelyek azonosítják az egyes szakaszok szakaszainak és objektumainak kapcsolatát. A hierarchikus struktúra minden szakaszban megmarad elements . A kimenettel markdown formátumban egyszerűen lekérheti a szakaszokat és alszakaszokat a Markdownban.

document_intelligence_client = DocumentIntelligenceClient(endpoint=endpoint, credential=AzureKeyCredential(key))
poller = document_intelligence_client.begin_analyze_document(
    "prebuilt-layout",
    AnalyzeDocumentRequest(url_source=url),
    output_content_format=ContentFormat.MARKDOWN,
)

Ez a tartalom a következőre vonatkozik: Sakk v3.1 (GA) | Legújabb verzió: lila pipa v4.0 (előzetes verzió) | Korábbi verziók: kék pipa v3.0 kék pipa v2.1

Ez a tartalom a következőre vonatkozik: Sakk v3.0 (GA) | Legújabb verziók:lila pipa v4.0 (előzetes verzió) lila pipa v3.1 | Korábbi verzió: kék pipa 2.1-es verzió

Ez a tartalom a következőre vonatkozik: Sakk v2.1 | Legújabb verzió: kék pipa 4.0-s verzió (előzetes verzió)

A Dokumentumintelligencia-elrendezési modell egy fejlett, gépi tanuláson alapuló dokumentumelemzési API, amely a Dokumentumintelligencia-felhőben érhető el. Lehetővé teszi a különböző formátumú dokumentumok készítését és a dokumentumok strukturált adatábrázolásának visszaadását. A hatékony optikai karakterfelismerési (OCR) képességek továbbfejlesztett verzióját ötvözi mélytanulási modellekkel a szöveg, a táblázatok, a kijelölési jelek és a dokumentumstruktúra kinyeréséhez.

Dokumentumelrendezés elemzése

A dokumentumstruktúra elrendezésének elemzése egy dokumentum elemzésének folyamata, amely kinyeri az érdekes régiókat és azok kapcsolatait. A cél a szöveg és a szerkezeti elemek kinyerése az oldalról, hogy jobb szemantikai megértési modelleket hozzon létre. A dokumentumelrendezés két szerepkörtípust különböztet meg:

  • Geometriai szerepkörök: A szöveg, a táblázatok, az ábrák és a kijelölési jelek geometriai szerepkörökre mutatnak példákat.
  • Logikai szerepkörök: A címek, címsorok és élőlábak példák a szövegek logikai szerepköreire.

Az alábbi ábra egy mintalap képének tipikus összetevőit mutatja be.

Példa a dokumentumelrendezésre.

Fejlesztési lehetőségek

A Document Intelligence v3.1 a következő eszközöket, alkalmazásokat és kódtárakat támogatja:

Szolgáltatás Források Modellazonosító
Elrendezési modell Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
előre összeállított elrendezés

A Document Intelligence 3.0-s verzió a következő eszközöket, alkalmazásokat és kódtárakat támogatja:

Szolgáltatás Források Modellazonosító
Elrendezési modell Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
előre összeállított elrendezés

A Document Intelligence v2.1 a következő eszközöket, alkalmazásokat és kódtárakat támogatja:

Szolgáltatás Források
Elrendezési modell Dokumentumintelligencia-címkézési eszköz
REST API
Ügyfélkódtár SDK
Dokumentumintelligencia Docker-tároló

Bemeneti követelmények

  • Támogatott fájlformátumok:

    Modell PDF Kép:
    JPEG/JPG, PNG, BMP, TIFFHEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
    Olvasás
    Elrendezés ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
    Általános dokumentum
    Előre összeállított
    Egyéni kinyerés
    Egyéni besorolás ✔ (2024-07-31-preview, 2024-02-29-preview)
  • A legjobb eredmény érdekében dokumentumonként egy tiszta fényképet vagy kiváló minőségű vizsgálatot biztosít.

  • PDF és TIFF esetén legfeljebb 2000 oldal dolgozható fel (ingyenes szintű előfizetéssel csak az első két oldal dolgozható fel).

  • A dokumentumok elemzéséhez használt fájlméret 500 MB a fizetős (S0) szint, az 4 ingyenes (F0) szint esetén pedig MB.

  • A képméreteknek 50 képpont x 50 képpont és 10 000 képpont x 10 000 képpont között kell lenniük.

  • Ha a PDF-eket jelszó védi, akkor beküldés előtt el kell távolítania a védelmet.

  • A kinyerni kívánt szöveg minimális magassága 12 képpont egy 1024 x 768 képpontos képhez. Ez a dimenzió körülbelül 8 150 pont/hüvelyk (DPI) pontszövegnek felel meg.

  • Egyéni modell betanítása esetén a betanítási adatok oldalainak maximális száma az egyéni sablonmodell esetében 500, az egyéni neurális modell esetében pedig 50 000.

    • Egyéni extrakciós modell betanítása esetén a betanítási adatok teljes mérete 50 MB a sablonmodellhez, a neurális modellhez pedig 1 GB.

    • Egyéni besorolási modell betanítása esetén a betanítási adatok 1 teljes mérete GB, legfeljebb 10 000 oldal. A 2024-07-31-es és újabb verziókban a betanítási adatok 2 teljes mérete GB, legfeljebb 10 000 oldal.

  • Támogatott fájlformátumok: JPEG, PNG, PDF és TIFF.
  • Támogatott oldalak száma: PDF és TIFF esetén legfeljebb 2000 oldal feldolgozása történik. Az ingyenes szintű előfizetők számára csak az első két oldal feldolgozása történik meg.
  • Támogatott fájlméret: a fájlméretnek 50 MB-nál kisebbnek és legalább 50 x 50 képpont méretűnek és legfeljebb 10 000 x 10 000 képpontnak kell lennie.

Az Elrendezési modell használatának első lépései

Megtudhatja, hogyan nyerik ki az adatokat, beleértve a szöveget, a táblázatfejléceket, a kijelölési jeleket és a struktúraadatokat a dokumentumokból a Dokumentumintelligencia használatával. A következő erőforrásokra van szüksége:

  • Azure-előfizetés – ingyenesen létrehozhat egyet.

  • Dokumentumintelligencia-példány az Azure Portalon. A szolgáltatás kipróbálásához használhatja az ingyenes tarifacsomagot (F0). Az erőforrás üzembe helyezése után válassza az Ugrás az erőforráshoz lehetőséget a kulcs és a végpont lekéréséhez.

Képernyőkép a kulcsok és a végpontok helyéről az Azure Portalon.

Feljegyzés

A Document Intelligence Studio 3.0-s és újabb verziójú API-kkal érhető el.

A Document Intelligence Studióval feldolgozott mintadokumentum

Képernyőkép az

  1. A Document Intelligence Studio kezdőlapján válassza az Elrendezés lehetőséget.

  2. Elemezheti a mintadokumentumot, vagy feltöltheti saját fájljait.

  3. Válassza az Elemzés futtatása gombot, és szükség esetén konfigurálja az Elemzési beállításokat:

    Képernyőkép a Document Intelligence Studio Elemzés és elemzés beállításai gombjairól.

Dokumentumintelligencia-mintacímkéző eszköz

  1. Lépjen a Dokumentumintelligencia mintaeszközre.

  2. A mintaeszköz kezdőlapján válassza az Elrendezés használata lehetőséget a szöveg, a táblázatok és a kijelölési jelek lekéréséhez.

    Képernyőkép a dokumentumintelligencia-elrendezési folyamat kapcsolati beállításairól.

  3. A Dokumentumintelligencia szolgáltatás végpont mezőjébe illessze be a Dokumentumintelligencia-előfizetéssel beszerzett végpontot.

  4. A kulcsmezőbe illessze be a Dokumentumintelligencia-erőforrásból beszerzett kulcsot.

  5. A Forrás mezőben válassza az URL-címet a legördülő menüből. Használhatja a mintadokumentumot:

  6. Válassza a Futtatás elrendezése lehetőséget. A dokumentumintelligencia-mintacímkézési eszköz meghívja az Analyze Layout API-t a dokumentum elemzéséhez.

    Képernyőkép az

  7. Az eredmények megtekintése – lásd a kiemelt kinyert szöveget, az észlelt kijelölési jeleket és az észlelt táblákat.

    Képernyőkép a Dokumentumintelligencia-mintacímkéző eszköz kapcsolati beállításairól.

Támogatott nyelvek és területi beállítások

A támogatott nyelvek teljes listáját a Nyelvi támogatás – dokumentumelemzési modellek oldalon találja.

A Document Intelligence v2.1 a következő eszközöket, alkalmazásokat és kódtárakat támogatja:

Szolgáltatás Források
Layout API Dokumentumintelligencia-címkézési eszköz
REST API
Ügyfélkódtár SDK
Dokumentumintelligencia Docker-tároló

Adatkinyerés

Az elrendezési modell szövegeket, kijelölési jeleket, táblázatokat, bekezdéseket és bekezdéstípusokat (roles) nyer ki a dokumentumokból.

Feljegyzés

2023-10-31-previewA verziók és újabb verziók 2024-02-29-previewtámogatják a Microsoft Office-t (DOCX, XLSX, PPTX) és HTML-fájlokat. A következő funkciók nem támogatottak:

  • Nincs szög, szélesség/magasság és egység az egyes oldalobjektumokkal.
  • Minden észlelt objektum esetében nincs határoló sokszög vagy határoló régió.
  • Az oldaltartomány (pages) paraméterként nem támogatott.
  • Nincs lines objektum.

Oldalak

A lapgyűjtemény a dokumentum lapjainak listája. Minden oldal egymás után jelenik meg a dokumentumban és a .. A /tartalmazza a tájolási szöget, amely jelzi, hogy az oldal elforgatva van-e, valamint a szélességet és a magasságot (képpontban megadott méretek). A modell kimenetének oldalegységei az alábbi módon lesznek kiszámítva:

Fájlformátum Számított oldalegység Összes oldal
Képek (JPEG/JPG, PNG, BMP, HEIF) Minden kép = 1 oldalegység Összes kép
PDF A PDF minden oldala = 1 oldalegység A PDF összes oldala
ÖSSZETŰZÉS A TIFF minden képe = 1 oldal Összes kép a TIFF-ben
Word (DOCX) Legfeljebb 3000 karakter = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak Legfeljebb 3000 karakter hosszúságú oldalak összesen
Excel (XLSX) Minden munkalap = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak Munkalapok összesen
PowerPoint (PPTX) Minden dia = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak Összes dia
HTML Legfeljebb 3000 karakter = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak Legfeljebb 3000 karakter hosszúságú oldalak összesen
"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": []
    }
]
# Analyze pages.
for page in result.pages:
    print(f"----Analyzing layout from page #{page.page_number}----")
    print(
        f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
    )

Kijelölt lapok kinyerése dokumentumokból

Nagyméretű, többoldalas dokumentumok esetén a pages lekérdezési paraméterrel konkrét oldalszámokat vagy oldaltartományokat jelölhet a szöveg kinyeréséhez.

Bekezdések

Az Elrendezési modell a gyűjtemény összes azonosított szövegblokkját legfelső szintű objektumként nyeri ki a paragraphs gyűjtemény alatt analyzeResults. A gyűjtemény minden bejegyzése egy szövegblokkot és .. A kinyert szöveg mintákatcontentés a határoló polygon koordinátákat tartalmazza. Az span információk a dokumentum teljes szövegét tartalmazó legfelső szintű content tulajdonság szövegtöredékére mutatnak.


"paragraphs": [
    {
        "spans": [],
        "boundingRegions": [],
        "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
    }
]

Bekezdésszerepkörök

Az új gépi tanuláson alapuló lapobjektum-észlelés olyan logikai szerepköröket nyer ki, mint a címek, szakaszfejlécek, oldalfejlécek, oldallábak stb. A Dokumentumintelligencia-elrendezés modell bizonyos szövegblokkokat rendel hozzá a gyűjteményhez a paragraphs modell által előrejelzett speciális szerepkörrel vagy típussal. A legjobb, ha strukturálatlan dokumentumokkal rendelkező bekezdésszerepköröket használ a kinyert tartalom elrendezésének megértéséhez a részletesebb szemantikai elemzéshez. A következő bekezdésszerepkörök támogatottak:

Előrejelzett szerepkör Leírás Támogatott fájltípusok
title A lap fő címsorai pdf, image, docx, pptx, xlsx, html
sectionHeading Egy vagy több alcím a lapon pdf, image, docx, xlsx, html
footnote Szöveg a lap alján pdf, kép
pageHeader Szöveg a lap felső széle közelében pdf, kép, docx
pageFooter Szöveg a lap alsó széle közelében pdf, image, docx, pptx, html
pageNumber Oldalszám pdf, kép
{
    "paragraphs": [
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "title",
                    "content": "NEWS TODAY"
                },
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "sectionHeading",
                    "content": "Mirjam Nilsson"
                }
    ]
}

Szöveg, sorok és szavak

A Dokumentumintelligencia dokumentumelrendezési modellje kinyeri a nyomtatott és a kézzel írt stílusszöveget.lines words A styles gyűjtemény .. A /tartalmaz minden kézzel írt stílust a sorokhoz, ha a rendszer észleli, valamint a társított szövegre mutató spanokat. Ez a funkció a támogatott kézzel írt nyelvekre vonatkozik.

Microsoft Word, Excel, PowerPoint és HTML esetén a Dokumentumintelligencia 2024-02-29-preview és a 2023-10-31 előzetes verziójú elrendezési modell az összes beágyazott szöveget kinyeri. A szövegek szavakként és bekezdésekként lesznek kinyerve. A beágyazott képek nem támogatottak.

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]
# Analyze lines.
for line_idx, line in enumerate(page.lines):
    words = line.get_words()
    print(
        f"...Line # {line_idx} has word count {len(words)} and text '{line.content}' "
        f"within bounding polygon '{format_polygon(line.polygon)}'"
    )

    # Analyze words.
    for word in words:
        print(
            f"......Word '{word.content}' has a confidence of {word.confidence}"
        )

Kézzel írt stílus szövegsorokhoz

A válasz .. A /magában foglalja annak besorolását, hogy az egyes szövegsorok kézírásstílussal vagy sem, valamint egy megbízhatósági pontszámmal együtt. További tudnivalók. Lásd: Kézzel írt nyelvi támogatás. Az alábbi példa egy JSON-kódrészletet mutat be.

"styles": [
{
    "confidence": 0.95,
    "spans": [
    {
        "offset": 509,
        "length": 24
    }
    "isHandwritten": true
    ]
}

Ha engedélyezi a betűtípus-/stílus hozzáadása funkciót, akkor az objektum részeként is megkapja a styles betűtípus/stílus eredményét.

Kijelölési jelek

Az Elrendezési modell kijelölési jeleket is kinyer a dokumentumokból. A kinyert kijelölési jelek az egyes lapok gyűjteményében pages jelennek meg. Ezek közé tartozik a határolókeret polygon, confidenceés a kijelölés state (selected/unselected). A szövegábrázolás (vagyis :selected: :unselected) is szerepel a kezdőindexben (offset), és length a dokumentum teljes szövegét tartalmazó legfelső szintű content tulajdonságra hivatkozik.

{
    "selectionMarks": [
        {
            "state": "unselected",
            "polygon": [],
            "confidence": 0.995,
            "span": {
                "offset": 1421,
                "length": 12
            }
        }
    ]
}
# Analyze selection marks.
for selection_mark in page.selection_marks:
    print(
        f"Selection mark is '{selection_mark.state}' within bounding polygon "
        f"'{format_polygon(selection_mark.polygon)}' and has a confidence of {selection_mark.confidence}"
    )

Táblák

A táblák kinyerése kulcsfontosságú követelmény a nagy mennyiségű adatot tartalmazó dokumentumok feldolgozásához, amelyek általában táblákként formázhatók. Az Elrendezési modell a JSON-kimenet szakaszában pageResults lévő táblákat nyeri ki. Kinyert táblaadatok .. A /tartalmazza az oszlopok és sorok számát, a sorokat és az oszlopfedéseket. A határoló sokszöggel rendelkező cellák kimenete és annak információi, hogy a terület felismerhető-e columnHeader vagy sem. A modell támogatja az elforgatott táblák kinyerését. Minden táblázatcella tartalmazza a sor- és oszlopindexet, valamint a határoló sokszög koordinátáit. A cellaszöveg esetében a modell a kezdő indexet (offset) tartalmazó információkat adja kispan. A modell a length dokumentum teljes szövegét tartalmazó legfelső szintű tartalomon belül is kimenetet ad ki.

Az alábbiakban néhány tényezőt érdemes figyelembe venni a Dokumentumintelligencia bála kinyerési funkciójának használatakor:

  • A kinyerni kívánt adatok táblázatként jelennek meg, és értelmezhető a táblastruktúra?

  • Elférnek az adatok egy kétdimenziós rácsban, ha az adatok nem táblázatos formátumúak?

  • A táblák több oldalra is kiterjednek? Ha igen, az összes oldal címkézésének elkerülése érdekében ossza fel a PDF-fájlt oldalakra, mielőtt elküldené a dokumentumintelligencia-nak. Az elemzés után az oldalakat egyetlen táblába kell feldolgozni.

  • Ha egyéni modelleket hoz létre, tekintse meg a táblázatos mezőket . A dinamikus táblák minden oszlophoz változó számú sort tartalmaznak. A rögzített táblák minden oszlophoz állandó számú sort tartalmaznak.

Feljegyzés

  • A táblaelemzés nem támogatott, ha a bemeneti fájl XLSX.
  • A 2024-07-31 előzetes verziótól kezdődően az ábrák és táblázatok határterületei csak az alaptartalmat fedik le, és kizárják a kapcsolódó feliratokat és lábjegyzeteket.
{
    "tables": [
        {
            "rowCount": 9,
            "columnCount": 4,
            "cells": [
                {
                    "kind": "columnHeader",
                    "rowIndex": 0,
                    "columnIndex": 0,
                    "columnSpan": 4,
                    "content": "(In millions, except earnings per share)",
                    "boundingRegions": [],
                    "spans": []
                    },
            ]
        }
    ]
}

# Analyze tables.
for table_idx, table in enumerate(result.tables):
    print(
        f"Table # {table_idx} has {table.row_count} rows and "
        f"{table.column_count} columns"
    )
    for region in table.bounding_regions:
        print(
            f"Table # {table_idx} location on page: {region.page_number} is {format_polygon(region.polygon)}"
        )
    for cell in table.cells:
        print(
            f"...Cell[{cell.row_index}][{cell.column_index}] has text '{cell.content}'"
        )
        for region in cell.bounding_regions:
            print(
                f"...content on page {region.page_number} is within bounding polygon '{format_polygon(region.polygon)}'"
            )

Széljegyzetek (csak az API-ban 2023-02-28-preview érhetők el.)

Az Elrendezési modell széljegyzeteket nyer ki a dokumentumokban, például ellenőrzésekben és keresztekben. A válasz .. A /tartalmazza a széljegyzetek fajtáját, valamint a megbízhatósági pontszámot és a határoló sokszöget.

    {
    "pages": [
    {
        "annotations": [
        {
            "kind": "cross",
            "polygon": [...],
            "confidence": 1
        }
        ]
    }
    ]
}

Természetes olvasási sorrend kimenete (csak latin betűs)

A lekérdezési paraméterrel megadhatja a szövegsorok kimenetének sorrendjét readingOrder . Az alábbi példában látható, emberbarátabb olvasási sorrend kimenetéhez használható natural . Ez a funkció csak latin nyelvek esetén támogatott.

Képernyőkép az

Oldalszámok vagy -tartományok kijelölése szövegkinyeréshez

Nagyméretű, többoldalas dokumentumok esetén a pages lekérdezési paraméterrel konkrét oldalszámokat vagy oldaltartományokat jelölhet a szöveg kinyeréséhez. Az alábbi példa egy 10 oldalas dokumentumot mutat be, amely mindkét esetben kinyert szöveget tartalmaz – az összes oldalt (1–10) és a kijelölt oldalakat (3–6).

Képernyőkép az elrendezési modell kijelölt lapjainak kimenetéről.

Az Elemzési elrendezés eredményének lekérése művelet

A második lépés az Elemzési elrendezés eredményének lekérése művelet meghívása. Ez a művelet bemenetként a létrehozott művelet eredményazonosítóját Analyze Layout veszi fel. Egy JSON-választ ad vissza, amely egy állapotmezőt tartalmaz az alábbi lehetséges értékekkel.

Mező Típus Lehetséges értékek
status húr notStarted: Az elemzési művelet nem indul el.
running
: Az elemzési művelet folyamatban van.
failed
: Az elemzési művelet sikertelen.

succeeded: Az elemzési művelet sikeres volt.

A művelet meghívása iteratív módon, amíg vissza nem adja az succeeded értéket. A másodpercenkénti kérelmek (RPS) sebességének túllépése érdekében 3–5 másodperces időközt használjon.

Ha az állapotmező rendelkezik az succeeded értékkel, a JSON-válasz .. A /tartalmazza a kinyert elrendezést, a szöveget, a táblázatokat és a kijelölési jeleket. A kinyert adatok .. A /magában foglalja a kibontott szövegsorokat és szavakat, a határolókereteket, a kézzel írt jelzéssel ellátott szöveg megjelenését, a táblázatokat és a kijelölési jeleket a kijelölt/jelöletlen megjelöléssel.

Kézzel írt besorolás szövegsorokhoz (csak latin betűs)

A válasz .. A /magában foglalja annak besorolását, hogy az egyes szövegsorok kézírásstílussal vagy sem, valamint egy megbízhatósági pontszámmal együtt. Ez a funkció csak latin nyelvek esetén támogatott. Az alábbi példa a kép szövegének kézzel írt besorolását mutatja be.

Képernyőkép az

JSON-mintakimenet

Az Elemzési elrendezés eredményének lekérése műveletre adott válasz a dokumentum strukturált ábrázolása az összes kinyert információval. A mintadokumentumfájlt és a strukturált kimeneti mintaelrendezés kimenetét itt találja.

A JSON-kimenet két részből áll:

  • readResults csomópont tartalmazza az összes felismert szöveget és kijelölési jelet. A szöveges bemutató hierarchiája a lap, majd a sor, majd az egyes szavak.
  • pageResults A csomópont tartalmazza a határolókeretekkel, megbízhatósággal és a "readResults" mező soraira és szavaira mutató hivatkozást tartalmazó táblákat és cellákat.

Példakimenet

Szöveg

Az Layout API több szövegszöggel és színnel kinyeri a dokumentumokat és képeket. Dokumentumokat, faxokat, nyomtatott és/vagy kézzel írt (csak angol nyelvű) szöveget és vegyes módokat fogad el. A szöveg sorokkal, szavakkal, határolókeretekkel, megbízhatósági pontszámokkal és stílussal (kézzel írt vagy más) információval nyerhető ki. A JSON-kimenet szakasza tartalmazza az readResults összes szöveges információt.

Fejléceket tartalmazó táblázatok

Az Layout API kinyeri a pageResults JSON-kimenet szakaszában lévő táblákat. A dokumentumok beolvashatók, lefényképezhetők vagy digitalizálhatók. A táblázatok összetettek lehetnek egyesített cellákkal vagy oszlopokkal, szegélyekkel vagy anélkül, valamint páratlan szögekkel. Kinyert táblaadatok .. A /tartalmazza az oszlopok és sorok számát, a sorokat és az oszlopfedéseket. A határolókerettel rendelkező cellák mindegyike kimenet, valamint az is, hogy a terület felismerhető-e egy fejléc részeként. A modell által előrejelzett fejléccellák több sorra is kiterjedhetnek, és nem feltétlenül a tábla első sorai. Elforgatott táblákkal is működnek. Minden táblázatcella is .. A /tartalmazza a szakasz egyes szavaira readResults mutató hivatkozásokat tartalmazó teljes szöveget.

Példa táblákra

Kijelölési jelek

Az Layout API kijelölési jeleket is kinyer a dokumentumokból. A kinyert kijelölési jelek közé tartozik a határolókeret, a megbízhatóság és az állapot (kijelölve/kijelölve). A kijelölési jel adatai a readResults JSON-kimenet szakaszában lesznek kinyerve.

Migrálási útmutató

  • Kövesse a Document Intelligence v3.1 migrálási útmutatóját, amelyből megtudhatja, hogyan használhatja a v3.1-es verziót az alkalmazásokban és munkafolyamatokban.

Következő lépések