Recognize Printed Text - Recognize Printed Text

Referenz

Service:: Cognitive Services - Computer Vision

API Version:: 3.2

Optische Zeichenerkennung (OCR) erkennt Text in einem Bild und extrahiert die erkannten Zeichen in eine vom Computer verwendbare Zeichenfolge. Bei Erfolg werden die OCR-Ergebnisse zurückgegeben. Bei einem Fehler wird der Fehlercode zusammen mit einer Fehlermeldung zurückgegeben. Der Fehlercode kann invalidImageUrl, InvalidImageFormat, InvalidImageSize, NotSupportedImage, NotSupportedLanguage oder InternalServerError sein.

POST {Endpoint}/vision/v3.2/ocr?detectOrientation={detectOrientation}

With optional parameters:

POST {Endpoint}/vision/v3.2/ocr?detectOrientation={detectOrientation}&language={language}&model-version={model-version}

URI-Parameter

Name	In	Erforderlich	Typ	Beschreibung
Endpoint	path	True	string	Unterstützte Cognitive Services-Endpunkte.
detectOrientation	query	True	boolean	Gibt an, ob die Textausrichtung im Bild erkannt wird. Mit detectOrientation=true versucht der OCR-Dienst, die Bildausrichtung zu erkennen und vor der weiteren Verarbeitung zu korrigieren (z. B. wenn er auf dem Kopf steht).
language	query		OcrLanguages	Der BCP-47-Sprachcode des Texts, der im Bild erkannt werden soll. Der Standardwert ist "unk".
model-version	query		string	Optionaler Parameter, um die Version des KI-Modells anzugeben. Zulässige Werte sind: "latest", "2021-04-01", "2021-05-01". Der Standardwert ist "latest". Regex pattern: `^(latest\|\d{4}-\d{2}-\d{2})(-preview)?$`

Anforderungsheader

Name	Erforderlich	Typ	Beschreibung
Ocp-Apim-Subscription-Key	True	string

Anforderungstext

Name	Erforderlich	Typ	Beschreibung
url	True	string	Öffentlich erreichbare URL eines Bilds.

Antworten

Name	Typ	Beschreibung
200 OK	OcrResult	Die OCR führt zu der Hierarchie von Region/Zeile/Wort. Die Ergebnisse enthalten Text, Begrenzungsrahmen für Bereiche, Zeilen und Wörter. Der Winkel des erkannten Texts im Bogenmaß in Bezug auf die nächstgelegene horizontale oder vertikale Richtung. Nachdem das Eingabebild im Uhrzeigersinn um diesen Winkel gedreht wurde, werden die erkannten Textlinien horizontal oder vertikal. In Kombination mit der Ausrichtungseigenschaft kann es verwendet werden, um Erkennungsergebnisse ordnungsgemäß auf dem Originalbild zu überlagern, indem entweder das Originalbild oder die Erkennungsergebnisse um einen geeigneten Winkel um die Mitte des originalen Bilds gedreht werden. Wenn der Winkel nicht sicher erkannt werden kann, ist diese Eigenschaft nicht vorhanden. Wenn das Bild Text in unterschiedlichen Winkeln enthält, wird nur ein Teil des Texts richtig erkannt.
Other Status Codes	ComputerVisionErrorResponse	Fehlerantwort.

Sicherheit

Ocp-Apim-Subscription-Key

Type: apiKey
In: header

Beispiele

Successful RecognizePrintedText request

Sample Request

HTTP

POST https://westus.api.cognitive.microsoft.com/vision/v3.2/ocr?detectOrientation=true&language=en


{
  "url": "{url}"
}

Sample Response

Status code:: 200

{
  "language": "en",
  "textAngle": -2.0000000000000338,
  "orientation": "Up",
  "regions": [
    {
      "boundingBox": "462,379,497,258",
      "lines": [
        {
          "boundingBox": "462,379,497,74",
          "words": [
            {
              "boundingBox": "462,379,41,73",
              "text": "A"
            },
            {
              "boundingBox": "523,379,153,73",
              "text": "GOAL"
            },
            {
              "boundingBox": "694,379,265,74",
              "text": "WITHOUT"
            }
          ]
        },
        {
          "boundingBox": "565,471,289,74",
          "words": [
            {
              "boundingBox": "565,471,41,73",
              "text": "A"
            },
            {
              "boundingBox": "626,471,150,73",
              "text": "PLAN"
            },
            {
              "boundingBox": "801,472,53,73",
              "text": "IS"
            }
          ]
        },
        {
          "boundingBox": "519,563,375,74",
          "words": [
            {
              "boundingBox": "519,563,149,74",
              "text": "JUST"
            },
            {
              "boundingBox": "683,564,41,72",
              "text": "A"
            },
            {
              "boundingBox": "741,564,153,73",
              "text": "WISH"
            }
          ]
        }
      ]
    }
  ],
  "modelVersion": "2021-04-01"
}

Definitionen

Name	Beschreibung
ComputerVisionError	Der API-Anforderungsfehler.
ComputerVisionErrorCodes	Der Fehlercode.
ComputerVisionErrorResponse	Die API-Fehlerantwort.
ComputerVisionInnerError	Details zum API-Anforderungsfehler.
ComputerVisionInnerErrorCodeValue	Der Fehlercode.
ImageUrl
OcrLanguages	Der BCP-47-Sprachcode des Texts, der im Bild erkannt werden soll. Der Standardwert ist "unk".
OcrLine	Ein Objekt, das eine einzelne erkannte Textzeile beschreibt.
OcrRegion	Ein Bereich besteht aus mehreren Zeilen (z. B. einer Textspalte in einem mehrspaltigen Dokument).
OcrResult
OcrWord	Informationen zu einem erkannten Wort.

ComputerVisionError

Der API-Anforderungsfehler.

Name	Typ	Beschreibung
code	ComputerVisionErrorCodes	Der Fehlercode.
innererror	ComputerVisionInnerError	Der innere Fehler enthält spezifischere Informationen.
message	string	Eine Meldung, die den vom Dienst gemeldeten Fehler erläutert.

ComputerVisionErrorCodes

Der Fehlercode.

Name	Typ	Beschreibung
InternalServerError	string
InvalidArgument	string
InvalidRequest	string
ServiceUnavailable	string

ComputerVisionErrorResponse

Die API-Fehlerantwort.

Name	Typ	Beschreibung
error	ComputerVisionError	Fehlerinhalt.

ComputerVisionInnerError

Details zum API-Anforderungsfehler.

Name	Typ	Beschreibung
code	ComputerVisionInnerErrorCodeValue	Der Fehlercode.
message	string	Fehlermeldung.

ComputerVisionInnerErrorCodeValue

Der Fehlercode.

Name	Typ	Beschreibung
BadArgument	string
CancelledRequest	string
DetectFaceError	string
FailedToProcess	string
InternalServerError	string
InvalidDetails	string
InvalidImageFormat	string
InvalidImageSize	string
InvalidImageUrl	string
InvalidModel	string
InvalidThumbnailSize	string
NotSupportedFeature	string
NotSupportedImage	string
NotSupportedLanguage	string
NotSupportedVisualFeature	string
StorageException	string
Timeout	string
Unspecified	string
UnsupportedMediaType	string

ImageUrl

Name	Typ	Beschreibung
url	string	Öffentlich erreichbare URL eines Bilds.

OcrLanguages

Der BCP-47-Sprachcode des Texts, der im Bild erkannt werden soll. Der Standardwert ist "unk".

Name	Typ	Beschreibung
ar	string
cs	string
da	string
de	string
el	string
en	string
es	string
fi	string
fr	string
hu	string
it	string
ja	string
ko	string
nb	string
nl	string
pl	string
pt	string
ro	string
ru	string
sk	string
sr-Cyrl	string
sr-Latn	string
sv	string
tr	string
unk	string
zh-Hans	string
zh-Hant	string

OcrLine

Ein Objekt, das eine einzelne erkannte Textzeile beschreibt.

Name	Typ	Beschreibung
boundingBox	string	Begrenzungsrahmen einer erkannten Linie. Die vier ganzen Zahlen stellen die x-Koordinate des linken Rands, die y-Koordinate des oberen Rands, breite und Höhe des Begrenzungsrahmens im Koordinatensystem des Eingabebilds dar, nachdem es gemäß dem erkannten Textwinkel um seine Mitte gedreht wurde (siehe textAngle-Eigenschaft), wobei der Ursprung in der oberen linken Ecke und die Y-Achse nach unten zeigt.
words	OcrWord[]	Ein Array von -Objekten, wobei jedes Objekt ein erkanntes Wort darstellt.

OcrRegion

Ein Bereich besteht aus mehreren Zeilen (z. B. einer Textspalte in einem mehrspaltigen Dokument).

Name	Typ	Beschreibung
boundingBox	string	Begrenzungsrahmen eines erkannten Bereichs. Die vier ganzen Zahlen stellen die x-Koordinate des linken Rands, die y-Koordinate des oberen Rands, breite und Höhe des Begrenzungsrahmens im Koordinatensystem des Eingabebilds dar, nachdem es gemäß dem erkannten Textwinkel um seine Mitte gedreht wurde (siehe textAngle-Eigenschaft), wobei der Ursprung in der oberen linken Ecke und die Y-Achse nach unten zeigt.
lines	OcrLine[]	Ein Array erkannter Textzeilen.

OcrResult

Name	Typ	Beschreibung
language	string	Der BCP-47-Sprachcode des Texts im Bild.
modelVersion	string	Version des KI-Modells.
orientation	string	Ausrichtung des im Bild erkannten Texts, falls angefordert. Der Wert (nach oben, unten, links oder rechts) bezieht sich auf die Richtung, in der sich der obere Rand des erkannten Texts befindet, nachdem das Bild entsprechend dem erkannten Textwinkel um seine Mitte gedreht wurde (siehe textAngle-Eigenschaft). Wenn die Erkennung der Ausrichtung nicht angefordert wurde oder kein Text erkannt wird, lautet der Wert "NotDetected".
regions	OcrRegion[]	Ein Array von -Objekten, wobei jedes Objekt einen Bereich mit erkanntem Text darstellt.
textAngle	number	Der Winkel des erkannten Texts im Bogenmaß in Bezug auf die nächstgelegene horizontale oder vertikale Richtung. Nachdem das Eingabebild im Uhrzeigersinn um diesen Winkel gedreht wurde, werden die erkannten Textlinien horizontal oder vertikal. In Kombination mit der Ausrichtungseigenschaft kann es verwendet werden, um Erkennungsergebnisse ordnungsgemäß auf dem Originalbild zu überlagern, indem entweder das Originalbild oder die Erkennungsergebnisse um einen geeigneten Winkel um die Mitte des originalen Bilds gedreht werden. Wenn der Winkel nicht sicher erkannt werden kann, ist diese Eigenschaft nicht vorhanden. Wenn das Bild Text in unterschiedlichen Winkeln enthält, wird nur ein Teil des Texts richtig erkannt.

OcrWord

Informationen zu einem erkannten Wort.

Name	Typ	Beschreibung
boundingBox	string	Begrenzungsrahmen eines erkannten Worts. Die vier ganzen Zahlen stellen die x-Koordinate des linken Rands, die y-Koordinate des oberen Rands, breite und Höhe des Begrenzungsrahmens im Koordinatensystem des Eingabebilds dar, nachdem es gemäß dem erkannten Textwinkel um seine Mitte gedreht wurde (siehe textAngle-Eigenschaft), wobei der Ursprung in der oberen linken Ecke und die Y-Achse nach unten zeigt.
text	string	Zeichenfolgenwert eines erkannten Worts.

Freigeben über