Recognize Printed Text - Recognize Printed Text
Optische Zeichenerkennung (OCR) erkennt Text in einem Bild und extrahiert die erkannten Zeichen in eine vom Computer verwendbare Zeichenfolge. Bei Erfolg werden die OCR-Ergebnisse zurückgegeben. Bei einem Fehler wird der Fehlercode zusammen mit einer Fehlermeldung zurückgegeben. Der Fehlercode kann invalidImageUrl, InvalidImageFormat, InvalidImageSize, NotSupportedImage, NotSupportedLanguage oder InternalServerError sein.
POST {Endpoint}/vision/v3.2/ocr?detectOrientation={detectOrientation}
POST {Endpoint}/vision/v3.2/ocr?detectOrientation={detectOrientation}&language={language}&model-version={model-version}
URI-Parameter
Name | In | Erforderlich | Typ | Beschreibung |
---|---|---|---|---|
Endpoint
|
path | True |
string |
Unterstützte Cognitive Services-Endpunkte. |
detect
|
query | True |
boolean |
Gibt an, ob die Textausrichtung im Bild erkannt wird. Mit detectOrientation=true versucht der OCR-Dienst, die Bildausrichtung zu erkennen und vor der weiteren Verarbeitung zu korrigieren (z. B. wenn er auf dem Kopf steht). |
language
|
query |
Der BCP-47-Sprachcode des Texts, der im Bild erkannt werden soll. Der Standardwert ist "unk". |
||
model-version
|
query |
string |
Optionaler Parameter, um die Version des KI-Modells anzugeben. Zulässige Werte sind: "latest", "2021-04-01", "2021-05-01". Der Standardwert ist "latest". Regex pattern: |
Anforderungsheader
Name | Erforderlich | Typ | Beschreibung |
---|---|---|---|
Ocp-Apim-Subscription-Key | True |
string |
Anforderungstext
Name | Erforderlich | Typ | Beschreibung |
---|---|---|---|
url | True |
string |
Öffentlich erreichbare URL eines Bilds. |
Antworten
Name | Typ | Beschreibung |
---|---|---|
200 OK |
Die OCR führt zu der Hierarchie von Region/Zeile/Wort. Die Ergebnisse enthalten Text, Begrenzungsrahmen für Bereiche, Zeilen und Wörter. Der Winkel des erkannten Texts im Bogenmaß in Bezug auf die nächstgelegene horizontale oder vertikale Richtung. Nachdem das Eingabebild im Uhrzeigersinn um diesen Winkel gedreht wurde, werden die erkannten Textlinien horizontal oder vertikal. In Kombination mit der Ausrichtungseigenschaft kann es verwendet werden, um Erkennungsergebnisse ordnungsgemäß auf dem Originalbild zu überlagern, indem entweder das Originalbild oder die Erkennungsergebnisse um einen geeigneten Winkel um die Mitte des originalen Bilds gedreht werden. Wenn der Winkel nicht sicher erkannt werden kann, ist diese Eigenschaft nicht vorhanden. Wenn das Bild Text in unterschiedlichen Winkeln enthält, wird nur ein Teil des Texts richtig erkannt. |
|
Other Status Codes |
Fehlerantwort. |
Sicherheit
Ocp-Apim-Subscription-Key
Type:
apiKey
In:
header
Beispiele
Successful RecognizePrintedText request
Sample Request
POST https://westus.api.cognitive.microsoft.com/vision/v3.2/ocr?detectOrientation=true&language=en
{
"url": "{url}"
}
Sample Response
{
"language": "en",
"textAngle": -2.0000000000000338,
"orientation": "Up",
"regions": [
{
"boundingBox": "462,379,497,258",
"lines": [
{
"boundingBox": "462,379,497,74",
"words": [
{
"boundingBox": "462,379,41,73",
"text": "A"
},
{
"boundingBox": "523,379,153,73",
"text": "GOAL"
},
{
"boundingBox": "694,379,265,74",
"text": "WITHOUT"
}
]
},
{
"boundingBox": "565,471,289,74",
"words": [
{
"boundingBox": "565,471,41,73",
"text": "A"
},
{
"boundingBox": "626,471,150,73",
"text": "PLAN"
},
{
"boundingBox": "801,472,53,73",
"text": "IS"
}
]
},
{
"boundingBox": "519,563,375,74",
"words": [
{
"boundingBox": "519,563,149,74",
"text": "JUST"
},
{
"boundingBox": "683,564,41,72",
"text": "A"
},
{
"boundingBox": "741,564,153,73",
"text": "WISH"
}
]
}
]
}
],
"modelVersion": "2021-04-01"
}
Definitionen
Name | Beschreibung |
---|---|
Computer |
Der API-Anforderungsfehler. |
Computer |
Der Fehlercode. |
Computer |
Die API-Fehlerantwort. |
Computer |
Details zum API-Anforderungsfehler. |
Computer |
Der Fehlercode. |
Image |
|
Ocr |
Der BCP-47-Sprachcode des Texts, der im Bild erkannt werden soll. Der Standardwert ist "unk". |
Ocr |
Ein Objekt, das eine einzelne erkannte Textzeile beschreibt. |
Ocr |
Ein Bereich besteht aus mehreren Zeilen (z. B. einer Textspalte in einem mehrspaltigen Dokument). |
Ocr |
|
Ocr |
Informationen zu einem erkannten Wort. |
ComputerVisionError
Der API-Anforderungsfehler.
Name | Typ | Beschreibung |
---|---|---|
code |
Der Fehlercode. |
|
innererror |
Der innere Fehler enthält spezifischere Informationen. |
|
message |
string |
Eine Meldung, die den vom Dienst gemeldeten Fehler erläutert. |
ComputerVisionErrorCodes
Der Fehlercode.
Name | Typ | Beschreibung |
---|---|---|
InternalServerError |
string |
|
InvalidArgument |
string |
|
InvalidRequest |
string |
|
ServiceUnavailable |
string |
ComputerVisionErrorResponse
Die API-Fehlerantwort.
Name | Typ | Beschreibung |
---|---|---|
error |
Fehlerinhalt. |
ComputerVisionInnerError
Details zum API-Anforderungsfehler.
Name | Typ | Beschreibung |
---|---|---|
code |
Der Fehlercode. |
|
message |
string |
Fehlermeldung. |
ComputerVisionInnerErrorCodeValue
Der Fehlercode.
Name | Typ | Beschreibung |
---|---|---|
BadArgument |
string |
|
CancelledRequest |
string |
|
DetectFaceError |
string |
|
FailedToProcess |
string |
|
InternalServerError |
string |
|
InvalidDetails |
string |
|
InvalidImageFormat |
string |
|
InvalidImageSize |
string |
|
InvalidImageUrl |
string |
|
InvalidModel |
string |
|
InvalidThumbnailSize |
string |
|
NotSupportedFeature |
string |
|
NotSupportedImage |
string |
|
NotSupportedLanguage |
string |
|
NotSupportedVisualFeature |
string |
|
StorageException |
string |
|
Timeout |
string |
|
Unspecified |
string |
|
UnsupportedMediaType |
string |
ImageUrl
Name | Typ | Beschreibung |
---|---|---|
url |
string |
Öffentlich erreichbare URL eines Bilds. |
OcrLanguages
Der BCP-47-Sprachcode des Texts, der im Bild erkannt werden soll. Der Standardwert ist "unk".
Name | Typ | Beschreibung |
---|---|---|
ar |
string |
|
cs |
string |
|
da |
string |
|
de |
string |
|
el |
string |
|
en |
string |
|
es |
string |
|
fi |
string |
|
fr |
string |
|
hu |
string |
|
it |
string |
|
ja |
string |
|
ko |
string |
|
nb |
string |
|
nl |
string |
|
pl |
string |
|
pt |
string |
|
ro |
string |
|
ru |
string |
|
sk |
string |
|
sr-Cyrl |
string |
|
sr-Latn |
string |
|
sv |
string |
|
tr |
string |
|
unk |
string |
|
zh-Hans |
string |
|
zh-Hant |
string |
OcrLine
Ein Objekt, das eine einzelne erkannte Textzeile beschreibt.
Name | Typ | Beschreibung |
---|---|---|
boundingBox |
string |
Begrenzungsrahmen einer erkannten Linie. Die vier ganzen Zahlen stellen die x-Koordinate des linken Rands, die y-Koordinate des oberen Rands, breite und Höhe des Begrenzungsrahmens im Koordinatensystem des Eingabebilds dar, nachdem es gemäß dem erkannten Textwinkel um seine Mitte gedreht wurde (siehe textAngle-Eigenschaft), wobei der Ursprung in der oberen linken Ecke und die Y-Achse nach unten zeigt. |
words |
Ocr |
Ein Array von -Objekten, wobei jedes Objekt ein erkanntes Wort darstellt. |
OcrRegion
Ein Bereich besteht aus mehreren Zeilen (z. B. einer Textspalte in einem mehrspaltigen Dokument).
Name | Typ | Beschreibung |
---|---|---|
boundingBox |
string |
Begrenzungsrahmen eines erkannten Bereichs. Die vier ganzen Zahlen stellen die x-Koordinate des linken Rands, die y-Koordinate des oberen Rands, breite und Höhe des Begrenzungsrahmens im Koordinatensystem des Eingabebilds dar, nachdem es gemäß dem erkannten Textwinkel um seine Mitte gedreht wurde (siehe textAngle-Eigenschaft), wobei der Ursprung in der oberen linken Ecke und die Y-Achse nach unten zeigt. |
lines |
Ocr |
Ein Array erkannter Textzeilen. |
OcrResult
Name | Typ | Beschreibung |
---|---|---|
language |
string |
Der BCP-47-Sprachcode des Texts im Bild. |
modelVersion |
string |
Version des KI-Modells. |
orientation |
string |
Ausrichtung des im Bild erkannten Texts, falls angefordert. Der Wert (nach oben, unten, links oder rechts) bezieht sich auf die Richtung, in der sich der obere Rand des erkannten Texts befindet, nachdem das Bild entsprechend dem erkannten Textwinkel um seine Mitte gedreht wurde (siehe textAngle-Eigenschaft). Wenn die Erkennung der Ausrichtung nicht angefordert wurde oder kein Text erkannt wird, lautet der Wert "NotDetected". |
regions |
Ein Array von -Objekten, wobei jedes Objekt einen Bereich mit erkanntem Text darstellt. |
|
textAngle |
number |
Der Winkel des erkannten Texts im Bogenmaß in Bezug auf die nächstgelegene horizontale oder vertikale Richtung. Nachdem das Eingabebild im Uhrzeigersinn um diesen Winkel gedreht wurde, werden die erkannten Textlinien horizontal oder vertikal. In Kombination mit der Ausrichtungseigenschaft kann es verwendet werden, um Erkennungsergebnisse ordnungsgemäß auf dem Originalbild zu überlagern, indem entweder das Originalbild oder die Erkennungsergebnisse um einen geeigneten Winkel um die Mitte des originalen Bilds gedreht werden. Wenn der Winkel nicht sicher erkannt werden kann, ist diese Eigenschaft nicht vorhanden. Wenn das Bild Text in unterschiedlichen Winkeln enthält, wird nur ein Teil des Texts richtig erkannt. |
OcrWord
Informationen zu einem erkannten Wort.
Name | Typ | Beschreibung |
---|---|---|
boundingBox |
string |
Begrenzungsrahmen eines erkannten Worts. Die vier ganzen Zahlen stellen die x-Koordinate des linken Rands, die y-Koordinate des oberen Rands, breite und Höhe des Begrenzungsrahmens im Koordinatensystem des Eingabebilds dar, nachdem es gemäß dem erkannten Textwinkel um seine Mitte gedreht wurde (siehe textAngle-Eigenschaft), wobei der Ursprung in der oberen linken Ecke und die Y-Achse nach unten zeigt. |
text |
string |
Zeichenfolgenwert eines erkannten Worts. |