OCR för avbildningar (version 4.0)


För att extrahera text från PDF-, Office- och HTML-dokument och dokumentbilder använder du OCR-modellen för dokumentinformation som är optimerad för textintensiva digitala och skannade dokument med ett asynkront API som gör det enkelt att driva dina intelligenta scenarier för dokumentbearbetning.

OCR började traditionellt som en maskininlärningsbaserad teknik för att extrahera text från vilda och icke-dokumentbilder som produktetiketter, användargenererade bilder, skärmbilder, gatuskyltar och affischer. I flera scenarier, till exempel enkla bilder som inte är textintensiva, behöver du ett snabbt, synkront API eller en tjänst. Detta gör att OCR kan bäddas in i användarupplevelser i nära realtid för att berika innehållstolkning och uppföljning av användaråtgärder med snabba omsvängningstider.

Vad är Visuellt innehåll v4.0 Läs OCR?

Det nya rest-API:et Visuellt innehåll Image Analysis 4.0 ger möjlighet att extrahera tryckt eller handskriven text från bilder i ett enhetligt prestandaförstärkt synkront API som gör det enkelt att få alla bildinsikter, inklusive OCR-resultat i en enda API-åtgärd. Read OCR-motorn bygger på flera djupinlärningsmodeller som stöds av universella skriptbaserade modeller för globalt språkstöd.


Du kan använda OCR-funktionen via Azure OpenAI-tjänsten . Med modellen GPT-4 Turbo with Vision kan du chatta med en AI-assistent som kan analysera de bilder du delar, och alternativet Vision Enhancement använder bildanalys för att ge AI-hjälpen mer information (läsbar text och objektplatser) om bilden. Mer information finns i snabbstarten GPT-4 Turbo med vision.

Exempel på textextrahering

Följande JSON-svar illustrerar vad API:et för bildanalys 4.0 returnerar när du extraherar text från den angivna bilden.

Photo of a sticky note with writing on it.

    "modelVersion": "2024-02-01",
        "width": 1000,
        "height": 945
                        "text": "You must be the change you",
                        "text": "wish to see in the world !",
                        "text": "Everything has its beauty , but",
                        "text": "not everyone sees it !",

Använda API:et

Funktionen för textextrahering är en del av API:et Analysera bild. Inkludera Read i frågeparametern funktioner . När du sedan får det fullständiga JSON-svaret parsar du strängen för innehållet i "readResult" avsnittet.

Nästa steg

Följ snabbstarten Bildanalys för att extrahera text från en bild med api:et Bildanalys 4.0.