Freigeben über


Recognize Printed Text - Recognize Printed Text

Optische Zeichenerkennung (OCR) erkennt Text in einem Bild und extrahiert die erkannten Zeichen in eine vom Computer verwendbare Zeichenfolge. Bei Erfolg werden die OCR-Ergebnisse zurückgegeben. Bei einem Fehler wird der Fehlercode zusammen mit einer Fehlermeldung zurückgegeben. Der Fehlercode kann invalidImageUrl, InvalidImageFormat, InvalidImageSize, NotSupportedImage, NotSupportedLanguage oder InternalServerError sein.

POST {Endpoint}/vision/v2.1/ocr?detectOrientation={detectOrientation}
POST {Endpoint}/vision/v2.1/ocr?detectOrientation={detectOrientation}&language={language}

URI-Parameter

Name In Erforderlich Typ Beschreibung
Endpoint
path True

string

Unterstützte Cognitive Services-Endpunkte.

detectOrientation
query True

boolean

Gibt an, ob die Textausrichtung im Bild erkannt wird. Mit detectOrientation=true versucht der OCR-Dienst, die Bildausrichtung zu erkennen und vor der weiteren Verarbeitung zu korrigieren (z. B. wenn er auf dem Kopf steht).

language
query

OcrLanguages

Der BCP-47-Sprachcode des Texts, der im Bild erkannt werden soll. Der Standardwert ist "unk".

Anforderungsheader

Name Erforderlich Typ Beschreibung
Ocp-Apim-Subscription-Key True

string

Anforderungstext

Name Erforderlich Typ Beschreibung
url True

string

Öffentlich erreichbare URL eines Bilds.

Antworten

Name Typ Beschreibung
200 OK

OcrResult

Die OCR führt zu der Hierarchie von Region/Zeile/Wort. Die Ergebnisse enthalten Text, Begrenzungsrahmen für Bereiche, Zeilen und Wörter. Der Winkel des erkannten Texts im Bogenmaß in Bezug auf die nächstgelegene horizontale oder vertikale Richtung. Nachdem das Eingabebild im Uhrzeigersinn um diesen Winkel gedreht wurde, werden die erkannten Textlinien horizontal oder vertikal. In Kombination mit der Ausrichtungseigenschaft kann es verwendet werden, um Erkennungsergebnisse ordnungsgemäß auf dem Originalbild zu überlagern, indem entweder das Originalbild oder die Erkennungsergebnisse um einen geeigneten Winkel um die Mitte des originalen Bilds gedreht werden. Wenn der Winkel nicht sicher erkannt werden kann, ist diese Eigenschaft nicht vorhanden. Wenn das Bild Text in unterschiedlichen Winkeln enthält, wird nur ein Teil des Texts richtig erkannt.

Other Status Codes

ComputerVisionError

Fehlerantwort.

Sicherheit

Ocp-Apim-Subscription-Key

Type: apiKey
In: header

Beispiele

Successful RecognizePrintedText request

Sample Request

POST https://westus.api.cognitive.microsoft.com/vision/v2.1/ocr?detectOrientation=true&language=en


"{url}"

Sample Response

{
  "language": "en",
  "textAngle": -2.0000000000000338,
  "orientation": "Up",
  "regions": [
    {
      "boundingBox": "462,379,497,258",
      "lines": [
        {
          "boundingBox": "462,379,497,74",
          "words": [
            {
              "boundingBox": "462,379,41,73",
              "text": "A"
            },
            {
              "boundingBox": "523,379,153,73",
              "text": "GOAL"
            },
            {
              "boundingBox": "694,379,265,74",
              "text": "WITHOUT"
            }
          ]
        },
        {
          "boundingBox": "565,471,289,74",
          "words": [
            {
              "boundingBox": "565,471,41,73",
              "text": "A"
            },
            {
              "boundingBox": "626,471,150,73",
              "text": "PLAN"
            },
            {
              "boundingBox": "801,472,53,73",
              "text": "IS"
            }
          ]
        },
        {
          "boundingBox": "519,563,375,74",
          "words": [
            {
              "boundingBox": "519,563,149,74",
              "text": "JUST"
            },
            {
              "boundingBox": "683,564,41,72",
              "text": "A"
            },
            {
              "boundingBox": "741,564,153,73",
              "text": "WISH"
            }
          ]
        }
      ]
    }
  ]
}

Definitionen

Name Beschreibung
ComputerVisionError

Details zum API-Anforderungsfehler.

ComputerVisionErrorCodes

Der Fehlercode.

ImageUrl
OcrLanguages

Der BCP-47-Sprachcode des Texts, der im Bild erkannt werden soll. Der Standardwert ist "unk".

OcrLine

Ein Objekt, das eine einzelne erkannte Textzeile beschreibt.

OcrRegion

Ein Bereich besteht aus mehreren Zeilen (z. B. einer Textspalte in einem mehrspaltigen Dokument).

OcrResult
OcrWord

Informationen zu einem erkannten Wort.

ComputerVisionError

Details zum API-Anforderungsfehler.

Name Typ Beschreibung
code

ComputerVisionErrorCodes

Der Fehlercode.

message

string

Eine Meldung, die den vom Dienst gemeldeten Fehler erläutert.

requestId

string

Ein eindeutiger Anforderungsbezeichner.

ComputerVisionErrorCodes

Der Fehlercode.

Name Typ Beschreibung
BadArgument

string

CancelledRequest

string

DetectFaceError

string

FailedToProcess

string

InternalServerError

string

InvalidDetails

string

InvalidImageFormat

string

InvalidImageSize

string

InvalidImageUrl

string

InvalidModel

string

InvalidThumbnailSize

string

NotSupportedFeature

string

NotSupportedImage

string

NotSupportedLanguage

string

NotSupportedVisualFeature

string

StorageException

string

Timeout

string

Unspecified

string

UnsupportedMediaType

string

ImageUrl

Name Typ Beschreibung
url

string

Öffentlich erreichbare URL eines Bilds.

OcrLanguages

Der BCP-47-Sprachcode des Texts, der im Bild erkannt werden soll. Der Standardwert ist "unk".

Name Typ Beschreibung
ar

string

cs

string

da

string

de

string

el

string

en

string

es

string

fi

string

fr

string

hu

string

it

string

ja

string

ko

string

nb

string

nl

string

pl

string

pt

string

ro

string

ru

string

sk

string

sr-Cyrl

string

sr-Latn

string

sv

string

tr

string

unk

string

zh-Hans

string

zh-Hant

string

OcrLine

Ein Objekt, das eine einzelne erkannte Textzeile beschreibt.

Name Typ Beschreibung
boundingBox

string

Begrenzungsrahmen einer erkannten Linie. Die vier ganzen Zahlen stellen die x-Koordinate des linken Rands, die y-Koordinate des oberen Rands, breite und Höhe des Begrenzungsrahmens im Koordinatensystem des Eingabebilds dar, nachdem es gemäß dem erkannten Textwinkel um seine Mitte gedreht wurde (siehe textAngle-Eigenschaft), wobei der Ursprung in der oberen linken Ecke und die Y-Achse nach unten zeigt.

words

OcrWord[]

Ein Array von -Objekten, wobei jedes Objekt ein erkanntes Wort darstellt.

OcrRegion

Ein Bereich besteht aus mehreren Zeilen (z. B. einer Textspalte in einem mehrspaltigen Dokument).

Name Typ Beschreibung
boundingBox

string

Begrenzungsrahmen eines erkannten Bereichs. Die vier ganzen Zahlen stellen die x-Koordinate des linken Rands, die y-Koordinate des oberen Rands, breite und Höhe des Begrenzungsrahmens im Koordinatensystem des Eingabebilds dar, nachdem es gemäß dem erkannten Textwinkel um seine Mitte gedreht wurde (siehe textAngle-Eigenschaft), wobei der Ursprung in der oberen linken Ecke und die Y-Achse nach unten zeigt.

lines

OcrLine[]

Ein Array erkannter Textzeilen.

OcrResult

Name Typ Beschreibung
language

string

Der BCP-47-Sprachcode des Texts im Bild.

orientation

string

Ausrichtung des im Bild erkannten Texts, falls angefordert. Der Wert (nach oben, unten, links oder rechts) bezieht sich auf die Richtung, in der sich der obere Rand des erkannten Texts befindet, nachdem das Bild entsprechend dem erkannten Textwinkel um seine Mitte gedreht wurde (siehe textAngle-Eigenschaft). Wenn die Erkennung der Ausrichtung nicht angefordert wurde oder kein Text erkannt wird, lautet der Wert "NotDetected".

regions

OcrRegion[]

Ein Array von -Objekten, wobei jedes Objekt einen Bereich mit erkanntem Text darstellt.

textAngle

number

Der Winkel des erkannten Texts im Bogenmaß in Bezug auf die nächstgelegene horizontale oder vertikale Richtung. Nachdem das Eingabebild im Uhrzeigersinn um diesen Winkel gedreht wurde, werden die erkannten Textlinien horizontal oder vertikal. In Kombination mit der Ausrichtungseigenschaft kann es verwendet werden, um Erkennungsergebnisse ordnungsgemäß auf dem Originalbild zu überlagern, indem entweder das Originalbild oder die Erkennungsergebnisse um einen geeigneten Winkel um die Mitte des originalen Bilds gedreht werden. Wenn der Winkel nicht sicher erkannt werden kann, ist diese Eigenschaft nicht vorhanden. Wenn das Bild Text in unterschiedlichen Winkeln enthält, wird nur ein Teil des Texts richtig erkannt.

OcrWord

Informationen zu einem erkannten Wort.

Name Typ Beschreibung
boundingBox

string

Begrenzungsrahmen eines erkannten Worts. Die vier ganzen Zahlen stellen die x-Koordinate des linken Rands, die y-Koordinate des oberen Rands, breite und Höhe des Begrenzungsrahmens im Koordinatensystem des Eingabebilds dar, nachdem es gemäß dem erkannten Textwinkel um seine Mitte gedreht wurde (siehe textAngle-Eigenschaft), wobei der Ursprung in der oberen linken Ecke und die Y-Achse nach unten zeigt.

text

string

Zeichenfolgenwert eines erkannten Worts.