Az Azure AI Vision 3.2 GA Read API meghívása
Ez az útmutató bemutatja, hogyan hívhatja meg a v3.2 GA Read API-t a képek szövegének kinyeréséhez. Megtudhatja, hogyan konfigurálhatja az API viselkedését az igényeinek megfelelően. Ez az útmutató feltételezi, hogy már létrehozott egy Vision-erőforrást , és beszerzett egy kulcsot és egy végpont URL-címet. Ha még nem tette meg, kövesse a rövid útmutatót az első lépésekhez.
OCR (Olvasás) kiadások
Fontos
Válassza ki a követelményeknek leginkább megfelelő olvasási kiadást.
Bevitel | Példák | Kiadás olvasása | Juttatás |
---|---|---|---|
Képek: Általános, vadon élő képek | címkék, utcatáblák és plakátok | OCR képekhez (4.0-s verzió) | Általános, nem dokumentumképekhez optimalizált, teljesítmény-továbbfejlesztett szinkron API-val, amely megkönnyíti az OCR beágyazását a felhasználói élmény forgatókönyveibe. |
Dokumentumok: Digitális és szkennelt, képeket is beleértve | könyvek, cikkek és jelentések | Dokumentumintelligencia-olvasási modell | Aszinkron API-val szövegigényes beolvasott és digitális dokumentumokhoz optimalizálva az intelligens dokumentumfeldolgozás nagy léptékű automatizálásához. |
Tudnivalók az Azure AI Vision 3.2-s ga-olvasásáról
A legújabb Azure AI Vision v3.2 GA-olvasást keresi? A Read OCR jövőbeli fejlesztései a korábban felsorolt két szolgáltatás részét képezik. Nincsenek további frissítések az Azure AI Képfelismerés 3.2-höz. További információ: Az Azure AI Vision 3.2 GA Read API meghívása és rövid útmutató: Azure AI Vision v3.2 GA Read.
Bemeneti követelmények
A Read API-hívás képeket és dokumentumokat vesz fel bemenetként. Ezek a következő követelményekkel rendelkeznek:
- Támogatott fájlformátumok: JPEG, PNG, BMP, PDF és TIFF
- A PDF- és TIFF-fájlok esetében legfeljebb 2000 oldal (az ingyenes szint esetében csak az első két oldal) lesz feldolgozva.
- A képek fájlmérete nem haladhatja meg az 500 MB-ot (4 MB az ingyenes szint esetében), a mérete pedig legalább 50 x 50 képpont és legfeljebb 10 000 x 10 000 képpont lehet. A PDF-fájloknak nincs méretkorlátozása.
- A kinyerni kívánt szöveg minimális magassága 1024 x 768 felbontású kép esetén 12 képpont. Ez körülbelül 8 betűpont szövegének felel meg 150 DPI-n.
Feljegyzés
Szövegsorokhoz nem kell körülvágást elvégeznie. Küldje el a teljes képet a Read API-nak, és felismeri az összes szöveget.
Az adatok feldolgozásának meghatározása (nem kötelező)
Az OCR-modell megadása
Alapértelmezés szerint a szolgáltatás a legújabb általánosan elérhető (GA) modellt használja a szöveg kinyeréséhez. A Read 3.2-től kezdve egy model-version
paraméter lehetővé teszi a ga és az előnézeti modellek közötti választást egy adott API-verzióhoz. A megadott modell az Olvasás művelettel történő szöveg kinyerésére szolgál.
Az Olvasás művelet használatakor használja az alábbi értékeket az opcionális model-version
paraméterhez.
Érték | Használt modell |
---|---|
Nincs megadva | Legújabb GA-modell |
legújabb | Legújabb GA-modell |
2022-04-30 | A legújabb GA-modell. 164 nyelv a nyomtatott szöveghez és 9 nyelv a kézzel írt szövegekhez, valamint számos minőségi és teljesítménybeli fejlesztés |
2022-01-30-preview | Az előzetes verziójú modell a hindi, az arab és a kapcsolódó nyelvek nyomtatási szövegének támogatását biztosítja. Kézzel írt szövegek esetén támogatja a japán és a koreai nyelvet. |
2021-09-30-preview | Az előzetes verziójú modell támogatja az orosz és más cirill nyelvek nyomtatási szövegét. Kézzel írt szöveg esetén támogatja a kínai egyszerűsített, a francia, a német, az olasz, a portugál és a spanyol nyelvet. |
2021-04-12 | 2021 GA-modell |
Beviteli nyelv
A szolgáltatás alapértelmezés szerint az összes szöveget kinyeri a képekből vagy dokumentumokból, beleértve a vegyes nyelveket is. Az olvasási művelet nyelvre vonatkozó opcionális kérelemparaméterrel rendelkezik. Csak akkor adjon meg nyelvi kódot, ha a dokumentumot az adott nyelvként szeretné feldolgozni. Ellenkező esetben előfordulhat, hogy a szolgáltatás hiányos és helytelen szöveget ad vissza.
Természetes olvasási sorrend kimenete (csak latin nyelvű)
A szolgáltatás alapértelmezés szerint balról jobbra sorrendben adja ki a szövegsorokat. Igény szerint a readingOrder
kérelemparaméterrel használjon natural
emberibb olvasási sorrendet az alábbi példában látható módon. Ez a funkció csak latin nyelvek esetén támogatott.
Oldal(ok) vagy oldaltartomány(ok) kijelölése szövegkinyeréshez
Alapértelmezés szerint a szolgáltatás a dokumentumok minden oldaláról kinyeri a szöveget. A kérelemparaméter használatával pages
megadhat oldalszámokat vagy oldaltartományokat, hogy csak ezekből a lapokból nyerjen ki szöveget. Az alábbi példa egy 10 oldalas dokumentumot mutat be, amely mindkét esetben kinyert szöveget tartalmaz – az összes oldalt (1–10) és a kijelölt oldalakat (3–6).
Adatok küldése a szolgáltatásba
Elküldhet egy helyi vagy egy távoli képet a Read API-nak. Helyi beállítás esetén a bináris képadatokat a HTTP-kérelem törzsébe kell helyeznie. Távoli esetén a rendszerkép URL-címét úgy adhatja meg, hogy a kérelem törzsét az alábbihoz hasonlóan formázzuk: {"url":"http://example.com/images/test.jpg"}
.
A Read API Olvasási hívása bemenetként egy képet vagy PDF-dokumentumot vesz fel, és aszinkron módon nyeri ki a szöveget.
https://{endpoint}/vision/v3.2/read/analyze[?language][&pages][&readingOrder]
A hívás egy válaszfejmezővel Operation-Location
tér vissza. Az Operation-Location
érték egy URL-cím, amely a következő lépésben használni kívánt műveletazonosítót tartalmazza.
Válaszfejléc | Példaérték |
---|---|
Művelet helye | https://cognitiveservice/vision/v3.2/read/analyzeResults/49a36324-fc4b-4387-aa06-090cfbf0064f |
Feljegyzés
Számlázás
Az Azure AI Vision díjszabási oldala tartalmazza az Olvasás tarifacsomagot. Minden elemzett kép vagy oldal egy tranzakció. Ha egy 100 oldalt tartalmazó PDF- vagy TIFF-dokumentummal hívja meg a műveletet, az Olvasás művelet 100 tranzakciónak számít, és 100 tranzakcióért kell fizetnie. Ha 50 hívást kezdeményezett a művelethez, és minden hívás egy 100 oldalas dokumentumot küldött, a rendszer 50 X 100 = 5000 tranzakciót számláz.
Eredmények lekérése a szolgáltatásból
A második lépés az olvasási eredmény lekérése művelet meghívása. Ez a művelet adja meg az olvasási művelet által létrehozott műveletazonosítót.
https://{endpoint}/vision/v3.2/read/analyzeResults/{operationId}
Egy JSON-választ ad vissza, amely egy állapotmezőt tartalmaz az alábbi lehetséges értékekkel.
Érték | Értelmezés |
---|---|
notStarted |
A művelet nem indult el. |
running |
A művelet feldolgozása folyamatban van. |
failed |
A művelet meghiúsult. |
succeeded |
A művelet sikeres volt. |
Ezt a műveletet iteratív módon kell meghívni, amíg vissza nem tér a sikeres értékkel. Használjon 1–2 másodperces időközt, hogy elkerülje a kérések másodpercenkénti (RPS) sebességének túllépését.
Feljegyzés
Az ingyenes szint percenként 20 hívásra korlátozza a kérések számát. A fizetős szint másodpercenként 30 kérést (RPS) tesz lehetővé, amelyek kérésre növelhetők. Jegyezze fel az Azure-erőforrás-azonosítót és -régiót, és nyisson meg egy Azure-támogatás jegyet, vagy forduljon a fiókcsapatához, hogy másodpercenként magasabb (RPS) kérést kérjen.
Ha az állapotmező rendelkezik az succeeded
értékkel, a JSON-válasz tartalmazza a képből vagy dokumentumból kinyert szöveges tartalmat. A JSON-válasz megőrzi a felismert szavak eredeti sorcsoportjait. Tartalmazza a kinyert szövegsorokat és azok határolókeretének koordinátáit. Minden szövegsor tartalmazza az összes kinyert szót a koordinátákkal és a megbízhatósági pontszámokkal.
Feljegyzés
Az olvasási művelethez küldött adatok ideiglenesen titkosítva vannak, és rövid ideig inaktív állapotban vannak tárolva, majd törölve lesznek. Ez lehetővé teszi az alkalmazások számára a kinyert szöveg lekérését a szolgáltatás válasza részeként.
JSON-mintakimenet
Tekintse meg a következő példát egy sikeres JSON-válaszra:
{
"status": "succeeded",
"createdDateTime": "2021-02-04T06:32:08.2752706+00:00",
"lastUpdatedDateTime": "2021-02-04T06:32:08.7706172+00:00",
"analyzeResult": {
"version": "3.2",
"readResults": [
{
"page": 1,
"angle": 2.1243,
"width": 502,
"height": 252,
"unit": "pixel",
"lines": [
{
"boundingBox": [
58,
42,
314,
59,
311,
123,
56,
121
],
"text": "Tabs vs",
"appearance": {
"style": {
"name": "handwriting",
"confidence": 0.96
}
},
"words": [
{
"boundingBox": [
68,
44,
225,
59,
224,
122,
66,
123
],
"text": "Tabs",
"confidence": 0.933
},
{
"boundingBox": [
241,
61,
314,
72,
314,
123,
239,
122
],
"text": "vs",
"confidence": 0.977
}
]
}
]
}
]
}
}
Kézzel írt besorolás szövegsorokhoz (csak latin nyelvek esetén)
A válasz magában foglalja annak besorolását, hogy az egyes szövegsorok kézzel írott stílusban vagy sem, valamint egy megbízhatósági pontszámot tartalmaznak. Ez a funkció csak latin nyelvek esetén érhető el. Az alábbi példa a kép szövegének kézzel írt besorolását mutatja be.