Megosztás a következőn keresztül:


Dokumentumintelligencia-olvasási modell

Fontos

  • A Document Intelligence nyilvános előzetes verziójú kiadásai korai hozzáférést biztosítanak az aktív fejlesztés alatt lévő funkciókhoz. A funkciók, a megközelítések és a folyamatok az általános rendelkezésre állás (GA) előtt változhatnak a felhasználói visszajelzések alapján.
  • A Document Intelligence ügyfélkódtárak nyilvános előzetes verziója alapértelmezés szerint a REST API 2024-07-31-preview verziója.
  • A nyilvános előzetes verzió 2024-07-31 előzetes verziója jelenleg csak a következő Azure-régiókban érhető el. Vegye figyelembe, hogy az AI Studio egyéni generatív (dokumentummező-kinyerési) modellje csak az USA északi középső régiójában érhető el:
    • USA keleti régiója
    • USA2 nyugati régiója
    • Nyugat-Európa
    • USA északi középső régiója

Ez a tartalom a következőre vonatkozik:Sakk v4.0 (előzetes verzió) | Korábbi verziók: kék pipa v3.1 (GA)kék pipa v3.0 (GA)

Ez a tartalom a következőre vonatkozik:Sakk v4.0 (előzetes verzió) | Korábbi verziók: kék pipa v3.1 (GA)kék pipa v3.0 (GA)

Feljegyzés

Ha szöveget szeretne kinyerni külső képekből, például címkékből, utcatáblákból és plakátokból, használja az Azure AI Image Analysis v4.0 Olvasás funkcióját, amely általános, nem dokumentumalapú képekhez van optimalizálva egy teljesítmény-továbbfejlesztett szinkron API-val, amely megkönnyíti az OCR beágyazását a felhasználói élmény forgatókönyveibe.

A Dokumentumintelligencia olvasási optikai karakterfelismerési (OCR) modell nagyobb felbontásban fut, mint az Azure AI Vision Read, és kinyomtatja és kézzel írt szöveget nyer ki PDF-dokumentumokból és beolvasott képekből. Emellett támogatja a Microsoft Word-, Excel-, PowerPoint- és HTML-dokumentumokból történő szövegkigyűjtést is. Észleli a bekezdéseket, szövegsorokat, szavakat, helyeket és nyelveket. Az olvasási modell a dokumentumintelligencia egyéb előre összeállított modelljeinek (például az Elrendezés, Az Általános dokumentum, a Számla, a Nyugta, az Identitás (ID) dokumentum, az Állapotbiztosítási kártya és a W2 alapjául szolgáló OCR-motor az egyéni modelleken kívül.

Mi az optikai karakterfelismerés?

A dokumentumok optikai karakterfelismerése (OCR) több fájlformátumban és globális nyelven nagy méretű, szövegigényes dokumentumokhoz van optimalizálva. Olyan funkciókat tartalmaz, mint a dokumentumképek nagyobb felbontású vizsgálata a kisebb és sűrűbb szövegek jobb kezelése érdekében; bekezdésészlelés; és kitölthető űrlapkezelés. Az OCR-képességek olyan speciális forgatókönyveket is tartalmaznak, mint az egykarakterek, valamint a számlákban, nyugtákban és egyéb előre összeállított forgatókönyvekben gyakran használt kulcsmezők pontos kinyerése.

Fejlesztési lehetőségek (v4)

A Document Intelligence v4.0 (2024-07-31-preview) a következő eszközöket, alkalmazásokat és kódtárakat támogatja:

Szolgáltatás Források Modellazonosító
OCR-modell olvasása Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
előre összeállított olvasás

Bemeneti követelmények (v4)

  • Támogatott fájlformátumok:

    Modell PDF Kép:
    JPEG/JPG, PNG, BMP, TIFFHEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
    Olvasás
    Elrendezés ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
    Általános dokumentum
    Előre összeállított
    Egyéni kinyerés
    Egyéni besorolás ✔ (2024-07-31-preview, 2024-02-29-preview)
  • A legjobb eredmény érdekében dokumentumonként egy tiszta fényképet vagy kiváló minőségű vizsgálatot biztosít.

  • PDF és TIFF esetén legfeljebb 2000 oldal dolgozható fel (ingyenes szintű előfizetéssel csak az első két oldal dolgozható fel).

  • A dokumentumok elemzéséhez használt fájlméret 500 MB a fizetős (S0) szint, az 4 ingyenes (F0) szint esetén pedig MB.

  • A képméreteknek 50 képpont x 50 képpont és 10 000 képpont x 10 000 képpont között kell lenniük.

  • Ha a PDF-eket jelszó védi, akkor beküldés előtt el kell távolítania a védelmet.

  • A kinyerni kívánt szöveg minimális magassága 12 képpont egy 1024 x 768 képpontos képhez. Ez a dimenzió körülbelül 8 150 pont/hüvelyk (DPI) pontszövegnek felel meg.

  • Egyéni modell betanítása esetén a betanítási adatok oldalainak maximális száma az egyéni sablonmodell esetében 500, az egyéni neurális modell esetében pedig 50 000.

    • Egyéni extrakciós modell betanítása esetén a betanítási adatok teljes mérete 50 MB a sablonmodellhez, a neurális modellhez pedig 1 GB.

    • Egyéni besorolási modell betanítása esetén a betanítási adatok 1 teljes mérete GB, legfeljebb 10 000 oldal. A 2024-07-31-es és újabb verziókban a betanítási adatok 2 teljes mérete GB, legfeljebb 10 000 oldal.

Ismerkedés az olvasási modellel (v4)

Próbáljon meg szöveget kinyerni űrlapokból és dokumentumokból a Document Intelligence Studióval. A következő eszközökre van szüksége:

  • Azure-előfizetés – ingyenesen létrehozhat egyet.

  • Dokumentumintelligencia-példány az Azure Portalon. A szolgáltatás kipróbálásához használhatja az ingyenes tarifacsomagot (F0). Az erőforrás üzembe helyezése után válassza az Ugrás az erőforráshoz lehetőséget a kulcs és a végpont lekéréséhez.

    Képernyőkép a kulcsok és a végpontok helyéről az Azure Portalon.

Feljegyzés

A Document Intelligence Studio jelenleg nem támogatja a Microsoft Word, Excel, PowerPoint és HTML fájlformátumokat.

A Document Intelligence Studióval feldolgozott mintadokumentum

Képernyőkép az olvasási feldolgozásról a Document Intelligence Studióban.

  1. A Document Intelligence Studio kezdőlapján válassza az Olvasás lehetőséget.

  2. Elemezheti a mintadokumentumot, vagy feltöltheti saját fájljait.

  3. Válassza az Elemzés futtatása gombot, és szükség esetén konfigurálja az Elemzési beállításokat:

    Képernyőkép a Document Intelligence Studio Elemzés és elemzés beállításai gombjairól.

Támogatott nyelvek és területi beállítások (v4)

A támogatott nyelvek teljes listáját a Nyelvi támogatás – dokumentumelemzési modellek oldalon találja.

Adatkinyerés (v4)

Feljegyzés

A Microsoft Word- és HTML-fájlokat a 4.0-s verzió támogatja. A PDF-hez és a képekhez képest az alábbi funkciók nem támogatottak:

  • Nincs szög, szélesség/magasság és egység az egyes oldalobjektumokkal.
  • Minden észlelt objektum esetében nincs határoló sokszög vagy határoló régió.
  • Az oldaltartomány (pages) paraméterként nem támogatott.
  • Nincs lines objektum.

Kereshető PDF-fájlok

A kereshető PDF-funkcióval analóg PDF-fájlokat, például beolvasott PDF-fájlokat konvertálhat beágyazott szöveggel rendelkező PDF-fájllá. A beágyazott szöveg lehetővé teszi a részletes szövegkeresést a PDF kinyert tartalmában az észlelt szöveges entitások képfájlokra való felülírásával.

Fontos

  • A kereshető PDF-funkciót jelenleg csak a Read OCR-modell prebuilt-readtámogatja. A funkció használatakor adja meg a modelId következőt prebuilt-read, mivel más modelltípusok hibát adnak vissza ehhez az előzetes verzióhoz.
  • A kereshető PDF a 2024-07-31 előzetes verziójú prebuilt-read modell részét képezi, és nincs további költség a kereshető PDF-kimenet létrehozásához.
    • A kereshető PDF jelenleg csak bemenetként támogatja a PDF-fájlokat. A többi fájltípus, például a képfájlok támogatása később is elérhető lesz.

Kereshető PDF-fájlok használata

A kereshető PDF használatához küldjön egy kérést POST a Analyze művelettel, és adja meg a kimeneti formátumot a következő módon pdf:


     POST /documentModels/prebuilt-read:analyze?output=pdf
     {...}
     202

A művelet befejezésének lekérdezése Analyze . A művelet befejezése után küldjön egy kérést GET a művelet eredményeinek PDF-formátumának lekérésére Analyze .

A sikeres befejezés után a PDF lekérhető és letölthető a következő formátumban application/pdf: . Ez a művelet lehetővé teszi a PDF beágyazott szöveges formájának közvetlen letöltését a Base64 kódolású JSON helyett.


     // Monitor the operation until completion.
     GET /documentModels/prebuilt-read/analyzeResults/{resultId}
     200
     {...}

     // Upon successful completion, retrieve the PDF as application/pdf.
     GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
     200 OK
     Content-Type: application/pdf

Pages paraméter

A lapgyűjtemény a dokumentum lapjainak listája. Minden oldal egymás után jelenik meg a dokumentumban, és tartalmazza a tájolási szöget, amely azt jelzi, hogy az oldal elforgatva van-e, valamint a szélességet és a magasságot (képpontban megadott méretek). A modell kimenetének oldalegységei az alábbi módon lesznek kiszámítva:

Fájlformátum Számított oldalegység Összes oldal
Képek (JPEG/JPG, PNG, BMP, HEIF) Minden kép = 1 oldalegység Összes kép
PDF A PDF minden oldala = 1 oldalegység A PDF összes oldala
ÖSSZETŰZÉS A TIFF minden képe = 1 oldal Összes kép a TIFF-ben
Word (DOCX) Legfeljebb 3000 karakter = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak Legfeljebb 3000 karakter hosszúságú oldalak összesen
Excel (XLSX) Minden munkalap = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak Munkalapok összesen
PowerPoint (PPTX) Minden dia = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak Összes dia
HTML Legfeljebb 3000 karakter = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak Legfeljebb 3000 karakter hosszúságú oldalak összesen
    # Analyze pages.
    for page in result.pages:
        print(f"----Analyzing document from page #{page.page_number}----")
        print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")

Lapok használata szövegkinyeréshez

Nagyméretű, többoldalas PDF-dokumentumok esetén a pages lekérdezési paraméterrel konkrét oldalszámokat vagy oldaltartományokat jelölhet a szöveg kinyeréséhez.

Bekezdés kinyerése

A Dokumentumintelligencia olvasási OCR-modellje a gyűjteményben lévő összes azonosított szövegblokkot legfelső szintű objektumként analyzeResultsnyeri ki.paragraphs A gyűjtemény minden bejegyzése egy szövegblokkot jelöl, és tartalmazza a kinyert szöveget éscontent a határoló polygon koordinátákat. Az span információk a dokumentum teljes szövegét tartalmazó legfelső szintű content tulajdonság szövegtöredékére mutatnak.

    "paragraphs": [
        {
            "spans": [],
            "boundingRegions": [],
            "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
        }
    ]

Szöveg, sorok és szavak kinyerése

A Read OCR modell kinyeri a nyomtatási és a kézzel írt stílusszöveget.lines words A modell a koordinátákat és confidence a kinyert szavakat adja polygon ki. A styles gyűjtemény tartalmaz minden kézzel írt stílust a vonalakhoz, ha észlelik, valamint a társított szövegre mutató spanokat. Ez a funkció a támogatott kézzel írt nyelvekre vonatkozik.

A Microsoft Word, Az Excel, a PowerPoint és a HTML esetében a Dokumentumintelligencia-olvasási modell 3.1-s és újabb verziói az összes beágyazott szöveget kinyerik. A szövegek szavakként és bekezdésekként vannak extratolva. A beágyazott képek nem támogatottak.

    # Analyze lines.
    if page.lines:
        for line_idx, line in enumerate(page.lines):
            words = get_words(page, line)
            print(
                f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{line.polygon}'"
            )

            # Analyze words.
            for word in words:
                print(f"......Word '{word.content}' has a confidence of {word.confidence}")

Kézzel írt stílus kinyerése

A válasz magában foglalja annak besorolását, hogy az egyes szövegsorok kézírásstílusúak-e vagy sem, valamint egy megbízhatósági pontszámot. További információ: kézzel írt nyelvi támogatás. Az alábbi példa egy JSON-kódrészletet mutat be.

    "styles": [
    {
        "confidence": 0.95,
        "spans": [
        {
            "offset": 509,
            "length": 24
        }
        "isHandwritten": true
        ]
    }

Ha engedélyezte a betűtípus-/stílus hozzáadása funkciót, az objektum részeként is megkapja a styles betűtípus/stílus eredményét.

Következő lépések v4.0

Végezze el a dokumentumintelligencia gyorsútmutatóját:

Ismerkedjen meg a REST API-val:

További minták keresése a GitHubon:

Ez a tartalom a következőre vonatkozik: Sakk v3.1 (GA) | Legújabb verzió:lila pipa v4.0 (előzetes verzió) | Korábbi verziók: kék pipa 3.0-s verzió

Ez a tartalom a következő verziókra vonatkozik: Sakk v3.0 (GA) | Legújabb verziók: lila pipa v4.0 (előzetes verzió)lila pipa v3.1

Feljegyzés

Ha szöveget szeretne kinyerni külső képekből, például címkékből, utcatáblákból és plakátokból, használja az Azure AI Image Analysis v4.0 Olvasás funkcióját, amely általános, nem dokumentumalapú képekhez van optimalizálva egy teljesítmény-továbbfejlesztett szinkron API-val, amely megkönnyíti az OCR beágyazását a felhasználói élmény forgatókönyveibe.

A Dokumentumintelligencia olvasási optikai karakterfelismerési (OCR) modell nagyobb felbontásban fut, mint az Azure AI Vision Read, és kinyomtatja és kézzel írt szöveget nyer ki PDF-dokumentumokból és beolvasott képekből. Emellett támogatja a Microsoft Word-, Excel-, PowerPoint- és HTML-dokumentumokból történő szövegkigyűjtést is. Észleli a bekezdéseket, szövegsorokat, szavakat, helyeket és nyelveket. Az olvasási modell a dokumentumintelligencia egyéb előre összeállított modelljeinek (például az Elrendezés, Az Általános dokumentum, a Számla, a Nyugta, az Identitás (ID) dokumentum, az Állapotbiztosítási kártya és a W2 alapjául szolgáló OCR-motor az egyéni modelleken kívül.

Mi az OCR a dokumentumokhoz?

A dokumentumok optikai karakterfelismerése (OCR) több fájlformátumban és globális nyelven nagy méretű, szövegigényes dokumentumokhoz van optimalizálva. Olyan funkciókat tartalmaz, mint a dokumentumképek nagyobb felbontású vizsgálata a kisebb és sűrűbb szövegek jobb kezelése érdekében; bekezdésészlelés; és kitölthető űrlapkezelés. Az OCR-képességek olyan speciális forgatókönyveket is tartalmaznak, mint az egykarakterek, valamint a számlákban, nyugtákban és egyéb előre összeállított forgatókönyvekben gyakran használt kulcsmezők pontos kinyerése.

Fejlesztési lehetőségek

A Document Intelligence v3.1 a következő eszközöket, alkalmazásokat és kódtárakat támogatja:

Szolgáltatás Források Modellazonosító
OCR-modell olvasása Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
előre összeállított olvasás

A Document Intelligence 3.0-s verzió a következő eszközöket, alkalmazásokat és kódtárakat támogatja:

Szolgáltatás Források Modellazonosító
OCR-modell olvasása Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
előre összeállított olvasás

Bemeneti követelmények

  • Támogatott fájlformátumok:

    Modell PDF Kép:
    JPEG/JPG, PNG, BMP, TIFFHEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
    Olvasás
    Elrendezés ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
    Általános dokumentum
    Előre összeállított
    Egyéni kinyerés
    Egyéni besorolás ✔ (2024-07-31-preview, 2024-02-29-preview)
  • A legjobb eredmény érdekében dokumentumonként egy tiszta fényképet vagy kiváló minőségű vizsgálatot biztosít.

  • PDF és TIFF esetén legfeljebb 2000 oldal dolgozható fel (ingyenes szintű előfizetéssel csak az első két oldal dolgozható fel).

  • A dokumentumok elemzéséhez használt fájlméret 500 MB a fizetős (S0) szint, az 4 ingyenes (F0) szint esetén pedig MB.

  • A képméreteknek 50 képpont x 50 képpont és 10 000 képpont x 10 000 képpont között kell lenniük.

  • Ha a PDF-eket jelszó védi, akkor beküldés előtt el kell távolítania a védelmet.

  • A kinyerni kívánt szöveg minimális magassága 12 képpont egy 1024 x 768 képpontos képhez. Ez a dimenzió körülbelül 8 150 pont/hüvelyk (DPI) pontszövegnek felel meg.

  • Egyéni modell betanítása esetén a betanítási adatok oldalainak maximális száma az egyéni sablonmodell esetében 500, az egyéni neurális modell esetében pedig 50 000.

    • Egyéni extrakciós modell betanítása esetén a betanítási adatok teljes mérete 50 MB a sablonmodellhez, a neurális modellhez pedig 1 GB.

    • Egyéni besorolási modell betanítása esetén a betanítási adatok 1 teljes mérete GB, legfeljebb 10 000 oldal. A 2024-07-31-es és újabb verziókban a betanítási adatok 2 teljes mérete GB, legfeljebb 10 000 oldal.

Ismerkedés az olvasási modellel

Próbáljon meg szöveget kinyerni űrlapokból és dokumentumokból a Document Intelligence Studióval. A következő eszközökre van szüksége:

  • Azure-előfizetés – ingyenesen létrehozhat egyet.

  • Dokumentumintelligencia-példány az Azure Portalon. A szolgáltatás kipróbálásához használhatja az ingyenes tarifacsomagot (F0). Az erőforrás üzembe helyezése után válassza az Ugrás az erőforráshoz lehetőséget a kulcs és a végpont lekéréséhez.

Képernyőkép a kulcsok és a végpontok helyéről az Azure Portalon.

Feljegyzés

A Document Intelligence Studio jelenleg nem támogatja a Microsoft Word, Excel, PowerPoint és HTML fájlformátumokat.

A Document Intelligence Studióval feldolgozott mintadokumentum

Képernyőkép az olvasási feldolgozásról a Document Intelligence Studióban.

  1. A Document Intelligence Studio kezdőlapján válassza az Olvasás lehetőséget.

  2. Elemezheti a mintadokumentumot, vagy feltöltheti saját fájljait.

  3. Válassza az Elemzés futtatása gombot, és szükség esetén konfigurálja az Elemzési beállításokat:

    Képernyőkép a Document Intelligence Studio Elemzés és elemzés beállításai gombjairól.

Támogatott nyelvek és területi beállítások

A támogatott nyelvek teljes listáját a Nyelvi támogatás – dokumentumelemzési modellek oldalon találja.

Adatkinyerés

Feljegyzés

A Microsoft Word- és HTML-fájlokat a 3.1-s és újabb verziók támogatják. A PDF-hez és a képekhez képest az alábbi funkciók nem támogatottak:

  • Nincs szög, szélesség/magasság és egység az egyes oldalobjektumokkal.
  • Minden észlelt objektum esetében nincs határoló sokszög vagy határoló régió.
  • Az oldaltartomány (pages) paraméterként nem támogatott.
  • Nincs lines objektum.

Kereshető PDF

A kereshető PDF-funkcióval analóg PDF-fájlokat, például beolvasott PDF-fájlokat konvertálhat beágyazott szöveggel rendelkező PDF-fájllá. A beágyazott szöveg lehetővé teszi a részletes szövegkeresést a PDF kinyert tartalmában az észlelt szöveges entitások képfájlokra való felülírásával.

Fontos

  • A kereshető PDF-funkciót jelenleg csak a Read OCR-modell prebuilt-readtámogatja. A funkció használatakor adja meg a modelId következőt prebuilt-read, mivel más modelltípusok hibát adnak vissza ehhez az előzetes verzióhoz.
  • A kereshető PDF a 2024-07-31 előzetes verziójú prebuilt-read modell részét képezi, és nincs további költség a kereshető PDF-kimenet létrehozásához.
    • A kereshető PDF jelenleg csak bemenetként támogatja a PDF-fájlokat. A többi fájltípus, például a képfájlok támogatása később is elérhető lesz.

Kereshető PDF használata

A kereshető PDF használatához küldjön egy kérést POST a Analyze művelettel, és adja meg a kimeneti formátumot a következő módon pdf:


    POST /documentModels/prebuilt-read:analyze?output=pdf
    {...}
    202

A művelet befejezésének lekérdezése Analyze . A művelet befejezése után küldjön egy kérést GET a művelet eredményeinek PDF-formátumának lekérésére Analyze .

A sikeres befejezés után a PDF lekérhető és letölthető a következő formátumban application/pdf: . Ez a művelet lehetővé teszi a PDF beágyazott szöveges formájának közvetlen letöltését a Base64 kódolású JSON helyett.


    // Monitor the operation until completion.
    GET /documentModels/prebuilt-read/analyzeResults/{resultId}
    200
    {...}

    // Upon successful completion, retrieve the PDF as application/pdf.
    GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
    200 OK
    Content-Type: application/pdf

Oldalak

A lapgyűjtemény a dokumentum lapjainak listája. Minden oldal egymás után jelenik meg a dokumentumban, és tartalmazza a tájolási szöget, amely azt jelzi, hogy az oldal elforgatva van-e, valamint a szélességet és a magasságot (képpontban megadott méretek). A modell kimenetének oldalegységei az alábbi módon lesznek kiszámítva:

Fájlformátum Számított oldalegység Összes oldal
Képek (JPEG/JPG, PNG, BMP, HEIF) Minden kép = 1 oldalegység Összes kép
PDF A PDF minden oldala = 1 oldalegység A PDF összes oldala
ÖSSZETŰZÉS A TIFF minden képe = 1 oldal Összes kép a TIFF-ben
Word (DOCX) Legfeljebb 3000 karakter = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak Legfeljebb 3000 karakter hosszúságú oldalak összesen
Excel (XLSX) Minden munkalap = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak Munkalapok összesen
PowerPoint (PPTX) Minden dia = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak Összes dia
HTML Legfeljebb 3000 karakter = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak Legfeljebb 3000 karakter hosszúságú oldalak összesen
    "pages": [
        {
            "pageNumber": 1,
            "angle": 0,
            "width": 915,
            "height": 1190,
            "unit": "pixel",
            "words": [],
            "lines": [],
            "spans": []
        }
    ]
    # Analyze pages.
    for page in result.pages:
        print(f"----Analyzing document from page #{page.page_number}----")
        print(
            f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
        )

Oldalak kijelölése szövegkinyeréshez

Nagyméretű, többoldalas PDF-dokumentumok esetén a pages lekérdezési paraméterrel konkrét oldalszámokat vagy oldaltartományokat jelölhet a szöveg kinyeréséhez.

Bekezdések

A Dokumentumintelligencia olvasási OCR-modellje a gyűjteményben lévő összes azonosított szövegblokkot legfelső szintű objektumként analyzeResultsnyeri ki.paragraphs A gyűjtemény minden bejegyzése egy szövegblokkot jelöl, és tartalmazza a kinyert szöveget éscontent a határoló polygon koordinátákat. Az span információk a dokumentum teljes szövegét tartalmazó legfelső szintű content tulajdonság szövegtöredékére mutatnak.

    "paragraphs": [
        {
            "spans": [],
            "boundingRegions": [],
            "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
        }
    ]

Szöveg, sorok és szavak

A Read OCR modell kinyeri a nyomtatási és a kézzel írt stílusszöveget.lines words A modell a koordinátákat és confidence a kinyert szavakat adja polygon ki. A styles gyűjtemény tartalmaz minden kézzel írt stílust a vonalakhoz, ha észlelik, valamint a társított szövegre mutató spanokat. Ez a funkció a támogatott kézzel írt nyelvekre vonatkozik.

A Microsoft Word, Az Excel, a PowerPoint és a HTML esetében a Dokumentumintelligencia-olvasási modell 3.1-s és újabb verziói az összes beágyazott szöveget kinyerik. A szövegek szavakként és bekezdésekként vannak extratolva. A beágyazott képek nem támogatottak.


    "words": [
        {
            "content": "While",
            "polygon": [],
            "confidence": 0.997,
            "span": {}
        },
    ],
    "lines": [
        {
            "content": "While healthcare is still in the early stages of its Al journey, we",
            "polygon": [],
            "spans": [],
        }
    ]
    # Analyze lines.
    for line_idx, line in enumerate(page.lines):
        words = line.get_words()
        print(
            f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{format_polygon(line.polygon)}'"
        )

        # Analyze words.
        for word in words:
            print(
                f"......Word '{word.content}' has a confidence of {word.confidence}"
            )

Kézzel írt stílus szövegsorokhoz

A válasz magában foglalja annak besorolását, hogy az egyes szövegsorok kézírásstílusúak-e vagy sem, valamint egy megbízhatósági pontszámot. További információ: kézzel írt nyelvi támogatás. Az alábbi példa egy JSON-kódrészletet mutat be.

    "styles": [
    {
        "confidence": 0.95,
        "spans": [
        {
            "offset": 509,
            "length": 24
        }
        "isHandwritten": true
        ]
    }

Ha engedélyezte a betűtípus-/stílus hozzáadása funkciót, az objektum részeként is megkapja a styles betűtípus/stílus eredményét.

Következő lépések

Végezze el a dokumentumintelligencia gyorsútmutatóját:

Ismerkedjen meg a REST API-val:

További minták keresése a GitHubon: