OCR – optisk teckenigenkänning

Artikel
02/14/2024

OCR eller optisk teckenigenkänning kallas även för textigenkänning eller textextrahering. Med maskininlärningsbaserade OCR-tekniker kan du extrahera tryckt eller handskriven text från bilder som affischer, gatuskyltar och produktetiketter, samt från dokument som artiklar, rapporter, formulär och fakturor. Texten extraheras vanligtvis som ord, textrader och stycken eller textblock, vilket ger åtkomst till digital version av den skannade texten. Detta eliminerar eller minskar avsevärt behovet av manuell datainmatning.

Intelligent dokumentbearbetning (IDP) använder OCR som grundteknik för att dessutom extrahera struktur, relationer, nyckelvärden, entiteter och andra dokumentcentrerade insikter med en avancerad maskininlärningsbaserad AI-tjänst som Document Intelligence. Dokumentinformation innehåller en dokumentoptimerad version av Read som OCR-motor samtidigt som den delegerar till andra modeller för insikter i högre slut. Om du extraherar text från skannade och digitala dokument använder du Document Intelligence Read OCR.

OCR-motor

Microsofts Read OCR-motor består av flera avancerade maskininlärningsbaserade modeller som stöder globala språk. Den kan extrahera tryckt och handskriven text, inklusive blandade språk och skrivstilar. Läs är tillgängligt som molntjänst och lokal container för distributionsflexibilitet. Med den senaste förhandsversionen är den också tillgänglig som ett synkront API för enskilda scenarier som inte är dokumentbaserade, med prestandaförbättringar som gör det enklare att implementera OCR-assisterade användarupplevelser.

Varning

Äldre OCR API för Azure AI Vision i v3.2 och RecognizeText API i v2.1-åtgärder rekommenderas inte för användning.

OCR-utgåvor (läsversioner)

Viktigt!

Välj den Läs-utgåva som passar dina behov bäst.

Indata	Exempel	Läs utgåva	Förmån
Bilder: Allmänna, vilda bilder	etiketter, gatuskyltar och affischer	OCR för avbildningar (version 4.0)	Optimerad för allmänna bilder som inte är dokument med ett prestandaförbättrat synkront API som gör det enklare att bädda in OCR i dina användarupplevelsescenarier.
Dokument: Digital och skannad, inklusive bilder	böcker, artiklar och rapporter	Läsmodell för dokumentinformation	Optimerad för textintensiva genomsökta och digitala dokument med ett asynkront API för att automatisera intelligent dokumentbearbetning i stor skala.

Om Azure AI Vision v3.2 GA Read

Letar du efter den senaste ga-läsningen i Azure AI Vision v3.2? Alla framtida förbättringar av läs-OCR är en del av de två tjänster som listades tidigare. Det finns inga ytterligare uppdateringar av Azure AI Vision v3.2. Mer information finns i Anropa Azure AI Vision 3.2 GA Read API och Snabbstart: Azure AI Vision v3.2 GA Read.

Så här använder du OCR

Prova OCR med hjälp av Vision Studio. Följ sedan en av länkarna till Read-utgåvan som bäst uppfyller dina krav.

Prova Vision Studio

Screenshot: Read OCR demo in Vision Studio.

OCR-språk som stöds

Båda läsversionerna som är tillgängliga i Azure AI Vision har stöd för flera språk för tryckt och handskriven text. OCR för tryckt text omfattar stöd för engelska, franska, tyska, italienska, portugisiska, spanska, kinesiska, japanska, koreanska, ryska, arabiska, hindi och andra internationella språk som använder latinska, kyrilliska, arabiska och Devanagari-skript. OCR för handskriven text innehåller stöd för engelska, förenklad kinesiska, franska, tyska, italienska, japanska, koreanska, portugisiska och spanska.

Se den fullständiga listan över OCR-språk som stöds.

Vanliga OCR-funktioner

Read OCR-modellen är tillgänglig i Azure AI Vision och Document Intelligence med vanliga baslinjefunktioner samtidigt som du optimerar för respektive scenarier. I följande lista sammanfattas de vanliga funktionerna:

Extrahering av tryckt och handskriven text på språk som stöds
Sidor, textrader och ord med plats- och konfidenspoäng
Stöd för blandade språk, blandat läge (utskrift och handskriven)
Tillgänglig som distrolös Docker-container för lokal distribution

Använda OCR-moln-API:er eller distribuera lokalt

Moln-API:erna är det bästa alternativet för de flesta kunder på grund av deras enkla integrering och snabba produktivitet. Azure och Azure AI Vision-tjänsten hanterar skalnings-, prestanda-, datasäkerhets- och efterlevnadsbehov samtidigt som du fokuserar på att uppfylla kundernas behov.

För lokal distribution gör Read Docker-containern att du kan distribuera azure AI Vision v3.2 allmänt tillgängliga OCR-funktioner i din egen lokala miljö. Containrar är bra för specifika säkerhets- och datastyrningskrav.

OCR-datasekretess och säkerhet

Precis som med alla Azure AI-tjänster bör utvecklare som använder Azure AI Vision-tjänsten vara medvetna om Microsofts principer för kunddata. Mer information finns på sidan Azure AI-tjänster i Microsoft Trust Center.

Nästa steg

OCR för allmänna (icke-dokument)-avbildningar: prova azure AI Vision 4.0-förhandsversionen av REST API-snabbstarten för bildanalys.
OCR för PDF-, Office- och HTML-dokument och dokumentbilder: börja med Document Intelligence Read.
Letar du efter den tidigare GA-versionen? Se snabbstarterna för Azure AI Vision 3.2 GA SDK eller REST API.