Az Azure AI Vision v3.2 GA Read API meghívása

2024-10-17

Ez az útmutató bemutatja, hogyan hívhatja meg a v3.2 GA Read API-t a képek szövegének kinyeréséhez. Megtudhatja, hogyan konfigurálhatja az API viselkedését az igényeinek megfelelően.

Az alábbi lépések feltételezik, hogy már létrehozott egy Computer Vision-erőforrást, és beszerezte a kulcs és a végpont URL-címét. Ha még nem tette meg, tekintse meg az első lépéseket ismertető rövid útmutatót .

OCR (Olvasás) kiadások

Fontos

Válassza ki a követelményeknek leginkább megfelelő olvasási kiadást.

Bevitel	Példák	Kiadás olvasása	Juttatás
Képek: Általános, vadon élő képek	címkék, utcatáblák és plakátok	OCR képekhez (4.0-s verzió)	Általános, nem dokumentumképekhez optimalizált, teljesítmény-továbbfejlesztett szinkron API-val, amely megkönnyíti az OCR beágyazását a felhasználói élmény forgatókönyveibe.
Dokumentumok: Digitális és szkennelt, képeket is beleértve	könyvek, cikkek és jelentések	Dokumentumintelligencia-olvasási modell	Aszinkron API-val szövegigényes beolvasott és digitális dokumentumokhoz optimalizálva az intelligens dokumentumfeldolgozás nagy léptékű automatizálásához.

Tudnivalók az Azure AI Vision 3.2-s ga-olvasásáról

A legújabb Azure AI Vision v3.2 GA-olvasást keresi? A Read OCR jövőbeli fejlesztései a korábban felsorolt két szolgáltatás részét képezik. Nincsenek további frissítések az Azure AI Képfelismerés 3.2-höz. További információ: Az Azure AI Vision 3.2 GA Read API meghívása és rövid útmutató: Azure AI Vision v3.2 GA Read.

Az adatok feldolgozásának meghatározása (nem kötelező)

Az OCR-modell megadása

Alapértelmezés szerint a szolgáltatás a legújabb általánosan elérhető (GA) modellt használja a szöveg kinyeréséhez. A Read 3.2-es verziójától kezdve a model-version paraméter lehetővé teszi a ga és az előnézeti modellek közötti választást egy adott API-verzióhoz. A megadott modell a szöveg olvasási művelettel való kinyerésére szolgál.

Az Olvasás művelet használatakor használja az alábbi értékeket az opcionális model-version paraméterhez.

Érték	Használt modell
Nincs megadva	Legújabb GA-modell
Legutóbbi	Legújabb GA-modell
2022-04-30	A legújabb GA-modell. 164 nyelv a nyomtatott szöveghez és 9 nyelv a kézzel írt szövegekhez, valamint számos minőségi és teljesítménybeli fejlesztés
2022-01-30	A hindi, az arab és a kapcsolódó nyelvek nyomtatási szövegének támogatása. Kézzel írt szövegek esetén támogatja a japán és a koreai nyelvet.
2021-09-30	Az orosz és más cirill nyelvek nyomtatási szövegtámogatását adja hozzá. Kézzel írt szöveg esetén támogatja a kínai egyszerűsített, a francia, a német, az olasz, a portugál és a spanyol nyelvet.
2021-04-12	2021 GA-modell

Beviteli nyelv

A szolgáltatás alapértelmezés szerint az összes szöveget kinyeri a képekből vagy dokumentumokból, beleértve a vegyes nyelveket is. Az olvasási művelet nyelvre vonatkozó opcionális kérelemparaméterrel rendelkezik. Csak akkor adjon meg nyelvi kódot, ha a dokumentumot az adott nyelvként szeretné feldolgozni. Ellenkező esetben előfordulhat, hogy a szolgáltatás hiányos és helytelen szöveget ad vissza.

Természetes olvasási sorrend kimenete (csak latin nyelvű)

A szolgáltatás alapértelmezés szerint balról jobbra sorrendben adja ki a szövegsorokat. Igény szerint a readingOrder kérelemparaméterrel használjon natural emberibb olvasási sorrendet az alábbi példában látható módon. Ez a funkció csak latin nyelvek esetén támogatott.

Képernyőkép az OCR olvasási sorrendről.

Oldalak vagy oldaltartományok kijelölése szövegkinyeréshez

Alapértelmezés szerint a szolgáltatás a dokumentumok minden oldaláról kinyeri a szöveget. A kérelemparaméter használatával pages megadhat oldalszámokat vagy oldaltartományokat, hogy csak ezekből a lapokból nyerjen ki szöveget. Az alábbi példa egy 10 oldalas dokumentumot mutat be, amely mindkét esetben kinyert szöveggel rendelkezik: Minden oldal (1-10) és Kijelölt oldalak (3-6).

Képernyőkép az összes oldal kimenetéről és a kijelölt oldalakról.

Adatok küldése a szolgáltatásba

Elküldhet egy helyi vagy egy távoli képet a Read API-nak. Helyi beállítás esetén a bináris képadatokat a HTTP-kérelem törzsébe kell helyeznie. Távoli esetben a rendszerkép URL-címét úgy adhatja meg, hogy a kérelem törzsét az alábbi példához hasonlóan formázzuk.

{"url":"http://example.com/images/test.jpg"}

A Read API Olvasási hívása bemenetként egy képet vagy PDF-dokumentumot vesz fel, és aszinkron módon nyeri ki a szöveget.

https://{endpoint}/vision/v3.2/read/analyze[?language][&pages][&readingOrder]

A hívás egy válaszfejmezővel Operation-Locationtér vissza. Az Operation-Location érték egy URL-cím, amely a következő lépésben használni kívánt műveletazonosítót tartalmazza.

Válaszfejléc	Példaérték
Művelet helye	`https://cognitiveservice/vision/v3.2/read/analyzeResults/d3d3d3d3-eeee-ffff-aaaa-b4b4b4b4b4b4`

Feljegyzés

Számlázás

Az Azure AI Vision díjszabási oldala tartalmazza az Olvasási műveletek tarifacsomagot. Minden elemzett kép vagy oldal egy tranzakció. Ha egy 100 oldalt tartalmazó PDF- vagy TIFF-dokumentummal hívja meg a műveletet, az Olvasás művelet 100 tranzakciónak számít, és 100 tranzakcióért kell fizetnie. Ha 50 hívást kezdeményezett a művelethez, és minden hívás egy 100 oldalas dokumentumot küldött, a rendszer 50 X 100 = 5000 tranzakciót számláz.

Eredmények lekérése a szolgáltatásból

A második lépés az olvasási eredmény lekérése művelet meghívása. Ez a művelet adja meg az olvasási művelet által létrehozott műveletazonosítót.

https://{endpoint}/vision/v3.2/read/analyzeResults/{operationId}

Egy JSON-választ ad vissza, amely egy állapotmezőt tartalmaz az alábbi lehetséges értékekkel.

Érték	Értelmezés
`notStarted`	A művelet nem indult el.
`running`	A művelet feldolgozása folyamatban van.
`failed`	A művelet nem sikerült.
`succeeded`	A művelet sikeres volt.

Ezt a műveletet iteratív módon kell meghívni, amíg vissza nem tér a sikeres értékkel. Használjon 1–2 másodperces időközt, hogy elkerülje a másodpercenkénti kérelmek (RPS) sebességének túllépését.

Feljegyzés

Az ingyenes szint percenként 20 hívásra korlátozza a kérések számát. A fizetős szint 30 RPS-t tesz lehetővé, amelyek kérésre növelhetők. Jegyezze fel az Azure-erőforrás-azonosítót és -régiót, és nyisson meg egy Azure-támogatás jegyet, vagy lépjen kapcsolatba a fiókcsapattal, hogy magasabb RPS-arányt kérjen.

Ha az állapotmező rendelkezik az succeeded értékkel, a JSON-válasz tartalmazza a képből vagy dokumentumból kinyert szöveges tartalmat. A JSON-válasz megőrzi a felismert szavak eredeti sorcsoportjait. Tartalmazza a kinyert szövegsorokat és azok határolókeretének koordinátáit. Minden szövegsor tartalmazza az összes kinyert szót a koordinátákkal és a megbízhatósági pontszámokkal.

Feljegyzés

Az olvasási művelethez küldött adatok ideiglenesen titkosítva vannak, és rövid ideig inaktív állapotban vannak tárolva, majd törölve lesznek. Ez lehetővé teszi az alkalmazások számára a kinyert szöveg lekérését a szolgáltatás válasza részeként.

JSON-mintakimenet

Tekintse meg a következő példát egy sikeres JSON-válaszra:

{
  "status": "succeeded",
  "createdDateTime": "2021-02-04T06:32:08.2752706+00:00",
  "lastUpdatedDateTime": "2021-02-04T06:32:08.7706172+00:00",
  "analyzeResult": {
    "version": "3.2",
    "readResults": [
      {
        "page": 1,
        "angle": 2.1243,
        "width": 502,
        "height": 252,
        "unit": "pixel",
        "lines": [
          {
            "boundingBox": [
              58,
              42,
              314,
              59,
              311,
              123,
              56,
              121
            ],
            "text": "Tabs vs",
            "appearance": {
              "style": {
                "name": "handwriting",
                "confidence": 0.96
              }
            },
            "words": [
              {
                "boundingBox": [
                  68,
                  44,
                  225,
                  59,
                  224,
                  122,
                  66,
                  123
                ],
                "text": "Tabs",
                "confidence": 0.933
              },
              {
                "boundingBox": [
                  241,
                  61,
                  314,
                  72,
                  314,
                  123,
                  239,
                  122
                ],
                "text": "vs",
                "confidence": 0.977
              }
            ]
          }
        ]
      }
    ]
  }
}

Kézzel írt besorolás szövegsorokhoz (csak latin nyelvek esetén)

A válasz magában foglalja annak besorolását, hogy az egyes szövegsorok kézzel írott stílusban vagy sem, valamint egy megbízhatósági pontszámot tartalmaznak. Ez a funkció csak latin nyelvek esetén érhető el. Az alábbi példa a kép szövegének kézzel írt besorolását mutatja be.

Képernyőkép az OCR kézírás-besorolási példájáról.

Megosztás a következőn keresztül:

Az Azure AI Vision v3.2 GA Read API meghívása

OCR (Olvasás) kiadások

Az adatok feldolgozásának meghatározása (nem kötelező)

Az OCR-modell megadása

Beviteli nyelv

Természetes olvasási sorrend kimenete (csak latin nyelvű)

Oldalak vagy oldaltartományok kijelölése szövegkinyeréshez

Adatok küldése a szolgáltatásba

Eredmények lekérése a szolgáltatásból

JSON-mintakimenet

Kézzel írt besorolás szövegsorokhoz (csak latin nyelvek esetén)

Kapcsolódó tartalom

Visszajelzés

További források