Recognize Printed Text - Recognize Printed Text
Оптическое распознавание символов (OCR) определяет печатный текст на изображении и извлекает распознанные символы в поток символов, пригодный для машинной обработки. После успешного выполнения будут возвращены результаты OCR. При сбое возвращается код ошибки вместе с сообщением об ошибке. Код ошибки может быть следующим: InvalidImageUrl, InvalidImageFormat, InvalidImageSize, NotSupportedImage, NotSupportedLanguage или InternalServerError.
POST {Endpoint}/vision/v2.1/ocr?detectOrientation={detectOrientation}
POST {Endpoint}/vision/v2.1/ocr?detectOrientation={detectOrientation}&language={language}
Параметры URI
Имя | В | Обязательно | Тип | Описание |
---|---|---|---|---|
Endpoint
|
path | True |
string |
Поддерживаемые конечные точки Cognitive Services. |
detect
|
query | True |
boolean |
Определяет ли ориентацию текста на изображении. С параметром detectOrientation=true служба распознавания текста пытается обнаружить ориентацию изображения и исправить ее перед дальнейшей обработкой (например, если она перевернута). |
language
|
query |
Код языка BCP-47 текста, который будет обнаружен на изображении. Значение по умолчанию — unk. |
Заголовок запроса
Имя | Обязательно | Тип | Описание |
---|---|---|---|
Ocp-Apim-Subscription-Key | True |
string |
Текст запроса
Имя | Обязательно | Тип | Описание |
---|---|---|---|
url | True |
string |
Общедоступный URL-адрес изображения. |
Ответы
Имя | Тип | Описание |
---|---|---|
200 OK |
OCR приводит к иерархии регион/строка/слово. Результаты включают текст, ограничивающий прямоугольник для областей, строк и слов. Угол обнаруженного текста в радианах относительно ближайшего горизонтального или вертикального направления. После поворота входного изображения по часовой стрелке на этот угол распознанные текстовые линии становятся горизонтальными или вертикальными. В сочетании со свойством orientation его можно использовать для правильного наложения результатов распознавания на исходное изображение путем поворота исходного изображения или результатов распознавания на подходящий угол вокруг центра исходного изображения. Если угол не может быть обнаружен уверенно, это свойство отсутствует. Если изображение содержит текст под разными углами, правильно распознается только часть текста. |
|
Other Status Codes |
Ответ об ошибке. |
Безопасность
Ocp-Apim-Subscription-Key
Тип:
apiKey
В:
header
Примеры
Successful RecognizePrintedText request
Образец запроса
POST https://westus.api.cognitive.microsoft.com/vision/v2.1/ocr?detectOrientation=true&language=en
"{url}"
Пример ответа
{
"language": "en",
"textAngle": -2.0000000000000338,
"orientation": "Up",
"regions": [
{
"boundingBox": "462,379,497,258",
"lines": [
{
"boundingBox": "462,379,497,74",
"words": [
{
"boundingBox": "462,379,41,73",
"text": "A"
},
{
"boundingBox": "523,379,153,73",
"text": "GOAL"
},
{
"boundingBox": "694,379,265,74",
"text": "WITHOUT"
}
]
},
{
"boundingBox": "565,471,289,74",
"words": [
{
"boundingBox": "565,471,41,73",
"text": "A"
},
{
"boundingBox": "626,471,150,73",
"text": "PLAN"
},
{
"boundingBox": "801,472,53,73",
"text": "IS"
}
]
},
{
"boundingBox": "519,563,375,74",
"words": [
{
"boundingBox": "519,563,149,74",
"text": "JUST"
},
{
"boundingBox": "683,564,41,72",
"text": "A"
},
{
"boundingBox": "741,564,153,73",
"text": "WISH"
}
]
}
]
}
]
}
Определения
Имя | Описание |
---|---|
Computer |
Сведения об ошибке запроса API. |
Computer |
Код ошибки. |
Image |
|
Ocr |
Код языка BCP-47 текста, который будет обнаружен на изображении. Значение по умолчанию — unk. |
Ocr |
Объект, описывающий одну распознаваемую строку текста. |
Ocr |
Область состоит из нескольких строк (например, столбец текста в документе с несколькими столбцами). |
Ocr |
|
Ocr |
Сведения об распознаваемом слове. |
ComputerVisionError
Сведения об ошибке запроса API.
Имя | Тип | Описание |
---|---|---|
code |
Код ошибки. |
|
message |
string |
Сообщение, объясняющее ошибку, о которую сообщила служба. |
requestId |
string |
Уникальный идентификатор запроса. |
ComputerVisionErrorCodes
Код ошибки.
Имя | Тип | Описание |
---|---|---|
BadArgument |
string |
|
CancelledRequest |
string |
|
DetectFaceError |
string |
|
FailedToProcess |
string |
|
InternalServerError |
string |
|
InvalidDetails |
string |
|
InvalidImageFormat |
string |
|
InvalidImageSize |
string |
|
InvalidImageUrl |
string |
|
InvalidModel |
string |
|
InvalidThumbnailSize |
string |
|
NotSupportedFeature |
string |
|
NotSupportedImage |
string |
|
NotSupportedLanguage |
string |
|
NotSupportedVisualFeature |
string |
|
StorageException |
string |
|
Timeout |
string |
|
Unspecified |
string |
|
UnsupportedMediaType |
string |
ImageUrl
Имя | Тип | Описание |
---|---|---|
url |
string |
Общедоступный URL-адрес изображения. |
OcrLanguages
Код языка BCP-47 текста, который будет обнаружен на изображении. Значение по умолчанию — unk.
Имя | Тип | Описание |
---|---|---|
ar |
string |
|
cs |
string |
|
da |
string |
|
de |
string |
|
el |
string |
|
en |
string |
|
es |
string |
|
fi |
string |
|
fr |
string |
|
hu |
string |
|
it |
string |
|
ja |
string |
|
ko |
string |
|
nb |
string |
|
nl |
string |
|
pl |
string |
|
pt |
string |
|
ro |
string |
|
ru |
string |
|
sk |
string |
|
sr-Cyrl |
string |
|
sr-Latn |
string |
|
sv |
string |
|
tr |
string |
|
unk |
string |
|
zh-Hans |
string |
|
zh-Hant |
string |
OcrLine
Объект, описывающий одну распознаваемую строку текста.
Имя | Тип | Описание |
---|---|---|
boundingBox |
string |
Ограничивающий прямоугольник распознанной линии. Четыре целых числа представляют координату X левого края, координату Y верхнего края, ширину и высоту ограничивающего прямоугольника в системе координат входного изображения после его поворота вокруг центра в соответствии с обнаруженным текстовым углом (см. свойство textAngle), с источником в левом верхнем углу и осью Y, указывающей вниз. |
words |
Ocr |
Массив объектов , где каждый объект представляет распознанное слово. |
OcrRegion
Область состоит из нескольких строк (например, столбец текста в документе с несколькими столбцами).
Имя | Тип | Описание |
---|---|---|
boundingBox |
string |
Ограничивающий прямоугольник распознанной области. Четыре целых числа представляют координату X левого края, координату Y верхнего края, ширину и высоту ограничивающего прямоугольника в системе координат входного изображения после его поворота вокруг центра в соответствии с обнаруженным текстовым углом (см. свойство textAngle), с источником в левом верхнем углу и осью Y, указывающей вниз. |
lines |
Ocr |
Массив распознаваемых строк текста. |
OcrResult
Имя | Тип | Описание |
---|---|---|
language |
string |
Код языка BCP-47 текста на изображении. |
orientation |
string |
Ориентация текста, распознаваемого на изображении, если требуется. Значение (вверх, вниз, влево или вправо) относится к направлению, к которому обращена верхняя часть распознанного текста после поворота изображения вокруг его центра в соответствии с обнаруженным углом текста (см. свойство textAngle). Если обнаружение ориентации не было запрошено или текст не обнаружен, значением будет NotDetected. |
regions |
Массив объектов , где каждый объект представляет область распознанного текста. |
|
textAngle |
number |
Угол обнаруженного текста в радианах относительно ближайшего горизонтального или вертикального направления. После поворота входного изображения по часовой стрелке на этот угол распознанные текстовые линии становятся горизонтальными или вертикальными. В сочетании со свойством orientation его можно использовать для правильного наложения результатов распознавания на исходное изображение путем поворота исходного изображения или результатов распознавания на подходящий угол вокруг центра исходного изображения. Если угол не может быть обнаружен уверенно, это свойство отсутствует. Если изображение содержит текст под разными углами, правильно распознается только часть текста. |
OcrWord
Сведения об распознаваемом слове.
Имя | Тип | Описание |
---|---|---|
boundingBox |
string |
Ограничивающий прямоугольник распознанного слова. Четыре целых числа представляют координату X левого края, координату Y верхнего края, ширину и высоту ограничивающего прямоугольника в системе координат входного изображения после его поворота вокруг центра в соответствии с обнаруженным текстовым углом (см. свойство textAngle), с источником в левом верхнем углу и осью Y, указывающей вниз. |
text |
string |
Строковое значение распознанного слова. |