OCR – Optikai karakterfelismerés

2025-04-04

Figyelmeztetés

Ez a szolgáltatás, beleértve az Azure AI Vision örökölt OCR API-t a 3.2-es verzióban és a RecognizeText API-t a 2.1-es verzióban, nem ajánlott használni.

OCR (Olvasás) kiadások

Fontos

Válassza ki a követelményeknek leginkább megfelelő olvasási kiadást.

Bevitel	Példák	Kiadás olvasása	Juttatás
Képek: Általános, vadon élő képek	címkék, utcatáblák és plakátok	OCR képekhez (4.0-s verzió)	Általános, nem dokumentumképekhez optimalizált, teljesítmény-továbbfejlesztett szinkron API-val, amely megkönnyíti az OCR beágyazását a felhasználói élmény forgatókönyveibe.
Dokumentumok: Digitális és szkennelt, képeket is beleértve	könyvek, cikkek és jelentések	Dokumentumintelligencia-olvasási modell	Aszinkron API-val szövegigényes beolvasott és digitális dokumentumokhoz optimalizálva az intelligens dokumentumfeldolgozás nagy léptékű automatizálásához.

Az Azure AI Vision v3.2 általános elérhetőségű olvasásáról

Keresi a legújabb Azure AI Vision v3.2 GA verzió olvasását? A Read OCR jövőbeli fejlesztései a korábban felsorolt két szolgáltatás részét képezik. Nincsenek további frissítések az Azure AI Képfelismerés 3.2-höz. További információ: Az Azure AI Vision 3.2 GA Read API meghívása és rövid útmutató: Azure AI Vision v3.2 GA Read.

Az OCR- vagy optikai karakterfelismerést szövegfelismerésnek vagy szövegkinyerésnek is nevezik. A gépi tanuláson alapuló OCR-technikákkal nyomtatott vagy kézzel írt szöveget nyerhet ki képekből, például plakátokból, utcatáblákból és termékcímkékből, valamint dokumentumokból, például cikkekből, jelentésekből, űrlapokból és számlákból. A szöveg általában szavak, szövegsorok, bekezdések vagy szövegblokkokként lesz kinyerve, lehetővé téve a beolvasott szöveg digitális verziójához való hozzáférést. Ez kiküszöböli vagy jelentősen csökkenti a manuális adatbevitel szükségességét.

OCR-motor

A Microsoft Read OCR motorja több fejlett gépi tanulási alapú modellből áll, amelyek támogatják a globális nyelveket. Képes nyomtatott és kézzel írt szövegek kinyerésében, beleértve a vegyes nyelveket és az írási stílusokat is. Az olvasás felhőszolgáltatásként és helyszíni tárolóként érhető el az üzembe helyezés rugalmassága érdekében. Szinkron API-ként is elérhető egyetlen, nem dokumentumból álló, csak képpel rendelkező forgatókönyvekhez, amelyek teljesítménybeli fejlesztései megkönnyítik az OCR által támogatott felhasználói élmények implementálását.

Az intelligens dokumentumfeldolgozás (IDP) az OCR-t használja alapszintű technológiájaként a struktúra, kapcsolatok, kulcsértékek, entitások és egyéb dokumentumcentrikus elemzések kinyeréséhez egy fejlett gépi tanuláson alapuló AI-szolgáltatással, például a Dokumentumintelligencia szolgáltatással. A Dokumentumintelligencia ocR-motorként tartalmazza a Read dokumentumoptimalizált verzióját, miközben más modellekre delegál a magasabb szintű elemzésekhez. Ha beolvasott és digitális dokumentumokból nyer ki szöveget, használja a Dokumentumintelligencia olvasási OCR-t.

Az OCR használata

Próbálja ki az OCR-t a Vision Studióval. Ezután kövesse az olvasási kiadásra mutató hivatkozások egyikét, amely a legjobban megfelel a követelményeknek.

A Vision Studio kipróbálása

Képernyőkép: OcR-bemutató olvasása a Vision Studióban.

OCR által támogatott nyelvek

Az Azure AI Visionben ma elérhető olvasási verziók számos nyelvet támogatnak nyomtatott és kézzel írt szövegekhez. A nyomtatott szöveghez készült OCR támogatja az angol, francia, német, olasz, portugál, spanyol, kínai, japán, koreai, orosz, arab, hindi és más, latin, cirill, arab és devanagari szkripteket használó nemzetközi nyelveket. A kézzel írt szövegek ocr-jának támogatása az angol, a kínai egyszerűsített, a francia, a német, az olasz, a japán, a koreai, a portugál és a spanyol nyelv támogatását tartalmazza.

Tekintse meg az OCR által támogatott nyelvek teljes listáját.

AZ OCR gyakori funkciói

Az olvasási OCR-modell az Azure AI Visionben és a Dokumentumintelligencia szolgáltatásban érhető el, közös alapkonfigurációs képességekkel, miközben optimalizálja a megfelelő forgatókönyveket. Az alábbi lista a gyakori funkciókat foglalja össze:

Nyomtatott és kézzel írt szöveg kinyerése támogatott nyelveken
Oldalak, szövegsorok és szavak hely- és megbízhatósági pontszámokkal
Vegyes nyelvek, vegyes mód (nyomtatás és kézzel írt) támogatása
Disztribúció nélküli Docker-tárolóként érhető el a helyszíni üzembe helyezéshez

Az OCR felhőalapú API-k használata vagy helyszíni üzembe helyezés

A felhőalapú API-k a legtöbb ügyfél számára előnyben részesített lehetőségnek számítanak az egyszerű integráció és a gyors hatékonyság miatt. Az Azure és az Azure AI Vision szolgáltatás kezeli a méretezési, teljesítmény-, adatbiztonsági és megfelelőségi igényeket, miközben az ügyfelek igényeinek kielégítésére összpontosít.

A helyszíni üzembe helyezéshez a Read Docker-tárolóval üzembe helyezheti az Azure AI Vision 3.2-s általánosan elérhető OCR-képességeit a saját helyi környezetében. A tárolók kiválóan alkalmasak adott biztonsági és adatszabályozási követelményekhez.

Bemeneti követelmények

A Read API képeket és dokumentumokat készít bemenetként. A képeknek és a dokumentumoknak meg kell felelniük a következő követelményeknek:

A támogatott fájlformátumok a JPEG, a PNG, a BMP, a PDF és a TIFF.
A PDF- és TIFF-fájlok esetében legfeljebb 2000 oldal (az ingyenes szint esetében csak az első két oldal) lesz feldolgozva.
A képek fájlméretének 500 MB-nál (az ingyenes szint esetén 4 MB-nál) kisebbnek kell lennie, és legalább 50 x 50 képpont méretűnek és legfeljebb 10 000 x 10 000 képpontnak kell lennie. A PDF-fájloknak nincs méretkorlátozása.
A kinyerni kívánt szöveg minimális magassága 12 képpont egy 1024 x 768-as kép esetében, amely körülbelül 8 pontos betűtípusnak felel meg 150 DPI-n.

Feljegyzés

A szövegsorokhoz nem kell képet körülvágni. Küldje el a teljes képet a Read API-nak, és felismeri az összes szöveget.

OCR-adatok védelme és biztonsága

Az Azure AI-szolgáltatásokhoz hasonlóan az Azure AI Vision szolgáltatást használó fejlesztőknek is tisztában kell lenniük a Microsoft ügyféladatokra vonatkozó szabályzataival. További információért tekintse meg az Azure AI-szolgáltatások oldalát a Microsoft Adatvédelmi központban.

Következő lépések

OCR általános (nem dokumentumos) rendszerképekhez: próbálja ki az Azure AI Vision 4.0 előzetes képelemzési REST API rövid útmutatóját.
OCR PDF-, Office- és HTML-dokumentumokhoz és dokumentumképekhez: kezdje a Dokumentumintelligencia olvasásával.
Az előző GA-verziót keresi? Tekintse meg az Azure AI Vision 3.2 GA SDK vagy a REST API rövid útmutatóit.