Dela via


OCR – optisk teckenigenkänning

OCR eller optisk teckenigenkänning kallas även för textigenkänning eller textextrahering. Med maskininlärningsbaserade OCR-tekniker kan du extrahera tryckt eller handskriven text från bilder såsom affischer, gatuskyltar och produktetiketter, samt från dokument såsom artiklar, rapporter, formulär och fakturor. Texten extraheras vanligtvis som ord, textrader och stycken eller textblock, vilket ger åtkomst till digital version av den skannade texten. Detta eliminerar eller minskar avsevärt behovet av manuell datainmatning.

OCR-motor

Microsofts Read OCR-motor består av flera avancerade maskininlärningsbaserade modeller som stöder globala språk. Den kan extrahera tryckt och handskriven text, inklusive blandade språk och skrivstilar. Läs är tillgängligt som molntjänst och lokal container för distributionsflexibilitet. Det är också tillgängligt som ett synkront API för enskilda scenarier som inte är dokumentbaserade och endast avbildningar med prestandaförbättringar som gör det enklare att implementera OCR-assisterad användarupplevelse.

Varning

Äldre OCR API för Azure AI Vision i v3.2 och RecognizeText API i v2.1-åtgärder rekommenderas inte för användning.

OCR-utgåvor (läsversioner)

Viktigt!

Välj den Läs-utgåva som passar dina behov bäst.

Indata Exempel Läs utgåva Förmån
Bilder: Allmänna, vilda bilder etiketter, gatuskyltar och affischer OCR för avbildningar (version 4.0) Optimerad för allmänna bilder som inte är dokument med ett prestandaförbättrat synkront API som gör det enklare att bädda in OCR i dina användarupplevelsescenarier.
Dokument: Digital och skannad, inklusive bilder böcker, artiklar och rapporter Läsmodell för dokumentinformation Optimerad för textintensiva genomsökta och digitala dokument med ett asynkront API för att automatisera intelligent dokumentbearbetning i stor skala.

Om Azure AI Vision v3.2 GA Read

Letar du efter den senaste ga-läsningen i Azure AI Vision v3.2? Alla framtida förbättringar av läs-OCR är en del av de två tjänster som listades tidigare. Det finns inga ytterligare uppdateringar av Azure AI Vision v3.2. Mer information finns i Anropa Azure AI Vision 3.2 GA Read API och Snabbstart: Azure AI Vision v3.2 GA Read.

Intelligent dokumentbearbetning (IDP) använder OCR som grundteknik för att dessutom extrahera struktur, relationer, nyckelvärden, entiteter och andra dokumentcentrerade insikter med en avancerad maskininlärningsbaserad AI-tjänst som Document Intelligence. Dokumentinformation innehåller en dokumentoptimerad version av Read som OCR-motor samtidigt som den delegerar till andra modeller för insikter i högre slut. Om du extraherar text från skannade och digitala dokument använder du Document Intelligence Read OCR.

Så här använder du OCR

Prova OCR med hjälp av Vision Studio. Följ sedan en av länkarna till Read-utgåvan som bäst uppfyller dina krav.

Skärmbild: Läs OCR-demo i Vision Studio.

OCR-språk som stöds

Båda läsversionerna som är tillgängliga i Azure AI Vision har stöd för flera språk för tryckt och handskriven text. OCR för tryckt text omfattar stöd för engelska, franska, tyska, italienska, portugisiska, spanska, kinesiska, japanska, koreanska, ryska, arabiska, hindi och andra internationella språk som använder latinska, kyrilliska, arabiska och Devanagari-skript. OCR för handskriven text innehåller stöd för engelska, förenklad kinesiska, franska, tyska, italienska, japanska, koreanska, portugisiska och spanska.

Se den fullständiga listan över OCR-språk som stöds.

Vanliga OCR-funktioner

Read OCR-modellen är tillgänglig i Azure AI Vision och Document Intelligence med vanliga baslinjefunktioner samtidigt som du optimerar för respektive scenarier. I följande lista sammanfattas de vanliga funktionerna:

  • Extrahering av tryckt och handskriven text på språk som stöds
  • Sidor, textrader och ord med plats- och konfidenspoäng
  • Stöd för blandade språk, blandat läge (utskrift och handskriven)
  • Tillgänglig som distrolös Docker-container för lokal distribution

Använda OCR-moln-API:er eller distribuera lokalt

Moln-API:erna är det bästa alternativet för de flesta kunder på grund av deras enkla integrering och snabba produktivitet. Azure och Azure AI Vision-tjänsten hanterar skalnings-, prestanda-, datasäkerhets- och efterlevnadsbehov samtidigt som du fokuserar på att uppfylla kundernas behov.

För lokal distribution gör Read Docker-containern att du kan distribuera azure AI Vision v3.2 allmänt tillgängliga OCR-funktioner i din egen lokala miljö. Containrar är bra för specifika säkerhets- och datastyrningskrav.

Indatakrav

Läs-API:et tar bilder och dokument som indata. Bilderna och dokumenten måste uppfylla följande krav:

  • Filformat som stöds är JPEG, PNG, BMP, PDF och TIFF.
  • För PDF- och TIFF-filer behandlas upp till 2 000 sidor (endast de två första sidorna för den kostnadsfria nivån).
  • Filstorleken för bilder måste vara mindre än 500 MB (4 MB för den kostnadsfria nivån) med dimensioner på minst 50 x 50 bildpunkter och högst 10 000 x 10 000 bildpunkter. PDF-filer har ingen storleksgräns.
  • Den minsta höjden på texten som ska extraheras är 12 bildpunkter för en bild på 1 024 x 768, vilket motsvarar ungefär 8-punkts teckensnittstext vid 150 DPI.

Kommentar

Du behöver inte beskära en bild för textrader. Skicka hela avbildningen till Läs-API:et och den känner igen alla texter.

OCR-datasekretess och säkerhet

Precis som med alla Azure AI-tjänster bör utvecklare som använder Azure AI Vision-tjänsten vara medvetna om Microsofts principer för kunddata. Mer information finns på sidan Azure AI-tjänster i Microsoft Trust Center.

Nästa steg

  • OCR för allmänna (icke-dokument)-avbildningar: prova azure AI Vision 4.0-förhandsversionen av REST API-snabbstarten för bildanalys.
  • OCR för PDF-, Office- och HTML-dokument och dokumentbilder: börja med Document Intelligence Read.
  • Letar du efter den tidigare GA-versionen? Se snabbstarterna för Azure AI Vision 3.2 GA SDK eller REST API.