Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
Ez az útmutató bemutatja, hogyan hívhatja meg a v3.2 GA Read API-t a képek szövegének kinyeréséhez. Megtudhatja, hogyan konfigurálhatja az API viselkedését az igényeinek megfelelően.
Az alábbi lépések feltételezik, hogy már létrehozott egy Computer Vision-erőforrást, és beszerezte a kulcs és a végpont URL-címét. Ha még nem tette meg, tekintse meg az első lépéseket ismertető rövid útmutatót .
OCR (Olvasás) kiadások
Fontos
Válassza ki a követelményeknek leginkább megfelelő olvasási kiadást.
Bevitel | Példák | Kiadás olvasása | Juttatás |
---|---|---|---|
Képek: Általános, vadon élő képek | címkék, utcatáblák és plakátok | OCR képekhez (4.0-s verzió) | Általános, nem dokumentumképekhez optimalizált, teljesítmény-továbbfejlesztett szinkron API-val, amely megkönnyíti az OCR beágyazását a felhasználói élmény forgatókönyveibe. |
Dokumentumok: Digitális és szkennelt, képeket is beleértve | könyvek, cikkek és jelentések | Dokumentumintelligencia-olvasási modell | Aszinkron API-val szövegigényes beolvasott és digitális dokumentumokhoz optimalizálva az intelligens dokumentumfeldolgozás nagy léptékű automatizálásához. |
Tudnivalók az Azure AI Vision 3.2-s ga-olvasásáról
A legújabb Azure AI Vision v3.2 GA-olvasást keresi? A Read OCR jövőbeli fejlesztései a korábban felsorolt két szolgáltatás részét képezik. Nincsenek további frissítések az Azure AI Képfelismerés 3.2-höz. További információ: Az Azure AI Vision 3.2 GA Read API meghívása és rövid útmutató: Azure AI Vision v3.2 GA Read.
Az adatok feldolgozásának meghatározása (nem kötelező)
Az OCR-modell megadása
Alapértelmezés szerint a szolgáltatás a legújabb általánosan elérhető (GA) modellt használja a szöveg kinyeréséhez. A Read 3.2-es verziójától kezdve a model-version
paraméter lehetővé teszi a ga és az előnézeti modellek közötti választást egy adott API-verzióhoz. A megadott modell a szöveg olvasási művelettel való kinyerésére szolgál.
Az Olvasás művelet használatakor használja az alábbi értékeket az opcionális model-version
paraméterhez.
Érték | Használt modell |
---|---|
Nincs megadva | Legújabb GA-modell |
Legutóbbi | Legújabb GA-modell |
2022-04-30 | A legújabb GA-modell. 164 nyelv a nyomtatott szöveghez és 9 nyelv a kézzel írt szövegekhez, valamint számos minőségi és teljesítménybeli fejlesztés |
2022-01-30 | A hindi, az arab és a kapcsolódó nyelvek nyomtatási szövegének támogatása. Kézzel írt szövegek esetén támogatja a japán és a koreai nyelvet. |
2021-09-30 | Az orosz és más cirill nyelvek nyomtatási szövegtámogatását adja hozzá. Kézzel írt szöveg esetén támogatja a kínai egyszerűsített, a francia, a német, az olasz, a portugál és a spanyol nyelvet. |
2021-04-12 | 2021 GA-modell |
Beviteli nyelv
A szolgáltatás alapértelmezés szerint az összes szöveget kinyeri a képekből vagy dokumentumokból, beleértve a vegyes nyelveket is. Az olvasási művelet nyelvre vonatkozó opcionális kérelemparaméterrel rendelkezik. Csak akkor adjon meg nyelvi kódot, ha a dokumentumot az adott nyelvként szeretné feldolgozni. Ellenkező esetben előfordulhat, hogy a szolgáltatás hiányos és helytelen szöveget ad vissza.
Természetes olvasási sorrend kimenete (csak latin nyelvű)
A szolgáltatás alapértelmezés szerint balról jobbra sorrendben adja ki a szövegsorokat. Igény szerint a readingOrder
kérelemparaméterrel használjon natural
emberibb olvasási sorrendet az alábbi példában látható módon. Ez a funkció csak latin nyelvek esetén támogatott.
Oldalak vagy oldaltartományok kijelölése szövegkinyeréshez
Alapértelmezés szerint a szolgáltatás a dokumentumok minden oldaláról kinyeri a szöveget. A kérelemparaméter használatával pages
megadhat oldalszámokat vagy oldaltartományokat, hogy csak ezekből a lapokból nyerjen ki szöveget. Az alábbi példa egy 10 oldalas dokumentumot mutat be, amely mindkét esetben kinyert szöveggel rendelkezik: Minden oldal (1-10) és Kijelölt oldalak (3-6).
Adatok küldése a szolgáltatásba
Elküldhet egy helyi vagy egy távoli képet a Read API-nak. Helyi beállítás esetén a bináris képadatokat a HTTP-kérelem törzsébe kell helyeznie. Távoli esetben a rendszerkép URL-címét úgy adhatja meg, hogy a kérelem törzsét az alábbi példához hasonlóan formázzuk.
{"url":"http://example.com/images/test.jpg"}
A Read API Olvasási hívása bemenetként egy képet vagy PDF-dokumentumot vesz fel, és aszinkron módon nyeri ki a szöveget.
https://{endpoint}/vision/v3.2/read/analyze[?language][&pages][&readingOrder]
A hívás egy válaszfejmezővel Operation-Location
tér vissza. Az Operation-Location
érték egy URL-cím, amely a következő lépésben használni kívánt műveletazonosítót tartalmazza.
Válaszfejléc | Példaérték |
---|---|
Művelet helye | https://cognitiveservice/vision/v3.2/read/analyzeResults/d3d3d3d3-eeee-ffff-aaaa-b4b4b4b4b4b4 |
Feljegyzés
Számlázás
Az Azure AI Vision díjszabási oldala tartalmazza az Olvasási műveletek tarifacsomagot. Minden elemzett kép vagy oldal egy tranzakció. Ha egy 100 oldalt tartalmazó PDF- vagy TIFF-dokumentummal hívja meg a műveletet, az Olvasás művelet 100 tranzakciónak számít, és 100 tranzakcióért kell fizetnie. Ha 50 hívást kezdeményezett a művelethez, és minden hívás egy 100 oldalas dokumentumot küldött, a rendszer 50 X 100 = 5000 tranzakciót számláz.
Eredmények lekérése a szolgáltatásból
A második lépés az olvasási eredmény lekérése művelet meghívása. Ez a művelet adja meg az olvasási művelet által létrehozott műveletazonosítót.
https://{endpoint}/vision/v3.2/read/analyzeResults/{operationId}
Egy JSON-választ ad vissza, amely egy állapotmezőt tartalmaz az alábbi lehetséges értékekkel.
Érték | Értelmezés |
---|---|
notStarted |
A művelet nem indult el. |
running |
A művelet feldolgozása folyamatban van. |
failed |
A művelet nem sikerült. |
succeeded |
A művelet sikeres volt. |
Ezt a műveletet iteratív módon kell meghívni, amíg vissza nem tér a sikeres értékkel. Használjon 1–2 másodperces időközt, hogy elkerülje a másodpercenkénti kérelmek (RPS) sebességének túllépését.
Feljegyzés
Az ingyenes szint percenként 20 hívásra korlátozza a kérések számát. A fizetős szint 30 RPS-t tesz lehetővé, amelyek kérésre növelhetők. Jegyezze fel az Azure-erőforrás-azonosítót és -régiót, és nyisson meg egy Azure-támogatás jegyet, vagy lépjen kapcsolatba a fiókcsapattal, hogy magasabb RPS-arányt kérjen.
Ha az állapotmező rendelkezik az succeeded
értékkel, a JSON-válasz tartalmazza a képből vagy dokumentumból kinyert szöveges tartalmat. A JSON-válasz megőrzi a felismert szavak eredeti sorcsoportjait. Tartalmazza a kinyert szövegsorokat és azok határolókeretének koordinátáit. Minden szövegsor tartalmazza az összes kinyert szót a koordinátákkal és a megbízhatósági pontszámokkal.
Feljegyzés
Az olvasási művelethez küldött adatok ideiglenesen titkosítva vannak, és rövid ideig inaktív állapotban vannak tárolva, majd törölve lesznek. Ez lehetővé teszi az alkalmazások számára a kinyert szöveg lekérését a szolgáltatás válasza részeként.
JSON-mintakimenet
Tekintse meg a következő példát egy sikeres JSON-válaszra:
{
"status": "succeeded",
"createdDateTime": "2021-02-04T06:32:08.2752706+00:00",
"lastUpdatedDateTime": "2021-02-04T06:32:08.7706172+00:00",
"analyzeResult": {
"version": "3.2",
"readResults": [
{
"page": 1,
"angle": 2.1243,
"width": 502,
"height": 252,
"unit": "pixel",
"lines": [
{
"boundingBox": [
58,
42,
314,
59,
311,
123,
56,
121
],
"text": "Tabs vs",
"appearance": {
"style": {
"name": "handwriting",
"confidence": 0.96
}
},
"words": [
{
"boundingBox": [
68,
44,
225,
59,
224,
122,
66,
123
],
"text": "Tabs",
"confidence": 0.933
},
{
"boundingBox": [
241,
61,
314,
72,
314,
123,
239,
122
],
"text": "vs",
"confidence": 0.977
}
]
}
]
}
]
}
}
Kézzel írt besorolás szövegsorokhoz (csak latin nyelvek esetén)
A válasz magában foglalja annak besorolását, hogy az egyes szövegsorok kézzel írott stílusban vagy sem, valamint egy megbízhatósági pontszámot tartalmaznak. Ez a funkció csak latin nyelvek esetén érhető el. Az alábbi példa a kép szövegének kézzel írt besorolását mutatja be.