Поделиться через


Recognize Printed Text - Recognize Printed Text

Оптическое распознавание символов (OCR) определяет печатный текст на изображении и извлекает распознанные символы в поток символов, пригодный для машинной обработки. После успешного выполнения будут возвращены результаты OCR. При сбое возвращается код ошибки вместе с сообщением об ошибке. Код ошибки может быть следующим: InvalidImageUrl, InvalidImageFormat, InvalidImageSize, NotSupportedImage, NotSupportedLanguage или InternalServerError.

POST {Endpoint}/vision/v2.1/ocr?detectOrientation={detectOrientation}
POST {Endpoint}/vision/v2.1/ocr?detectOrientation={detectOrientation}&language={language}

Параметры URI

Имя В Обязательно Тип Описание
Endpoint
path True

string

Поддерживаемые конечные точки Cognitive Services.

detectOrientation
query True

boolean

Определяет ли ориентацию текста на изображении. С параметром detectOrientation=true служба распознавания текста пытается обнаружить ориентацию изображения и исправить ее перед дальнейшей обработкой (например, если она перевернута).

language
query

OcrLanguages

Код языка BCP-47 текста, который будет обнаружен на изображении. Значение по умолчанию — unk.

Заголовок запроса

Имя Обязательно Тип Описание
Ocp-Apim-Subscription-Key True

string

Текст запроса

Имя Обязательно Тип Описание
url True

string

Общедоступный URL-адрес изображения.

Ответы

Имя Тип Описание
200 OK

OcrResult

OCR приводит к иерархии регион/строка/слово. Результаты включают текст, ограничивающий прямоугольник для областей, строк и слов. Угол обнаруженного текста в радианах относительно ближайшего горизонтального или вертикального направления. После поворота входного изображения по часовой стрелке на этот угол распознанные текстовые линии становятся горизонтальными или вертикальными. В сочетании со свойством orientation его можно использовать для правильного наложения результатов распознавания на исходное изображение путем поворота исходного изображения или результатов распознавания на подходящий угол вокруг центра исходного изображения. Если угол не может быть обнаружен уверенно, это свойство отсутствует. Если изображение содержит текст под разными углами, правильно распознается только часть текста.

Other Status Codes

ComputerVisionError

Ответ об ошибке.

Безопасность

Ocp-Apim-Subscription-Key

Тип: apiKey
В: header

Примеры

Successful RecognizePrintedText request

Образец запроса

POST https://westus.api.cognitive.microsoft.com/vision/v2.1/ocr?detectOrientation=true&language=en


"{url}"

Пример ответа

{
  "language": "en",
  "textAngle": -2.0000000000000338,
  "orientation": "Up",
  "regions": [
    {
      "boundingBox": "462,379,497,258",
      "lines": [
        {
          "boundingBox": "462,379,497,74",
          "words": [
            {
              "boundingBox": "462,379,41,73",
              "text": "A"
            },
            {
              "boundingBox": "523,379,153,73",
              "text": "GOAL"
            },
            {
              "boundingBox": "694,379,265,74",
              "text": "WITHOUT"
            }
          ]
        },
        {
          "boundingBox": "565,471,289,74",
          "words": [
            {
              "boundingBox": "565,471,41,73",
              "text": "A"
            },
            {
              "boundingBox": "626,471,150,73",
              "text": "PLAN"
            },
            {
              "boundingBox": "801,472,53,73",
              "text": "IS"
            }
          ]
        },
        {
          "boundingBox": "519,563,375,74",
          "words": [
            {
              "boundingBox": "519,563,149,74",
              "text": "JUST"
            },
            {
              "boundingBox": "683,564,41,72",
              "text": "A"
            },
            {
              "boundingBox": "741,564,153,73",
              "text": "WISH"
            }
          ]
        }
      ]
    }
  ]
}

Определения

Имя Описание
ComputerVisionError

Сведения об ошибке запроса API.

ComputerVisionErrorCodes

Код ошибки.

ImageUrl
OcrLanguages

Код языка BCP-47 текста, который будет обнаружен на изображении. Значение по умолчанию — unk.

OcrLine

Объект, описывающий одну распознаваемую строку текста.

OcrRegion

Область состоит из нескольких строк (например, столбец текста в документе с несколькими столбцами).

OcrResult
OcrWord

Сведения об распознаваемом слове.

ComputerVisionError

Сведения об ошибке запроса API.

Имя Тип Описание
code

ComputerVisionErrorCodes

Код ошибки.

message

string

Сообщение, объясняющее ошибку, о которую сообщила служба.

requestId

string

Уникальный идентификатор запроса.

ComputerVisionErrorCodes

Код ошибки.

Имя Тип Описание
BadArgument

string

CancelledRequest

string

DetectFaceError

string

FailedToProcess

string

InternalServerError

string

InvalidDetails

string

InvalidImageFormat

string

InvalidImageSize

string

InvalidImageUrl

string

InvalidModel

string

InvalidThumbnailSize

string

NotSupportedFeature

string

NotSupportedImage

string

NotSupportedLanguage

string

NotSupportedVisualFeature

string

StorageException

string

Timeout

string

Unspecified

string

UnsupportedMediaType

string

ImageUrl

Имя Тип Описание
url

string

Общедоступный URL-адрес изображения.

OcrLanguages

Код языка BCP-47 текста, который будет обнаружен на изображении. Значение по умолчанию — unk.

Имя Тип Описание
ar

string

cs

string

da

string

de

string

el

string

en

string

es

string

fi

string

fr

string

hu

string

it

string

ja

string

ko

string

nb

string

nl

string

pl

string

pt

string

ro

string

ru

string

sk

string

sr-Cyrl

string

sr-Latn

string

sv

string

tr

string

unk

string

zh-Hans

string

zh-Hant

string

OcrLine

Объект, описывающий одну распознаваемую строку текста.

Имя Тип Описание
boundingBox

string

Ограничивающий прямоугольник распознанной линии. Четыре целых числа представляют координату X левого края, координату Y верхнего края, ширину и высоту ограничивающего прямоугольника в системе координат входного изображения после его поворота вокруг центра в соответствии с обнаруженным текстовым углом (см. свойство textAngle), с источником в левом верхнем углу и осью Y, указывающей вниз.

words

OcrWord[]

Массив объектов , где каждый объект представляет распознанное слово.

OcrRegion

Область состоит из нескольких строк (например, столбец текста в документе с несколькими столбцами).

Имя Тип Описание
boundingBox

string

Ограничивающий прямоугольник распознанной области. Четыре целых числа представляют координату X левого края, координату Y верхнего края, ширину и высоту ограничивающего прямоугольника в системе координат входного изображения после его поворота вокруг центра в соответствии с обнаруженным текстовым углом (см. свойство textAngle), с источником в левом верхнем углу и осью Y, указывающей вниз.

lines

OcrLine[]

Массив распознаваемых строк текста.

OcrResult

Имя Тип Описание
language

string

Код языка BCP-47 текста на изображении.

orientation

string

Ориентация текста, распознаваемого на изображении, если требуется. Значение (вверх, вниз, влево или вправо) относится к направлению, к которому обращена верхняя часть распознанного текста после поворота изображения вокруг его центра в соответствии с обнаруженным углом текста (см. свойство textAngle). Если обнаружение ориентации не было запрошено или текст не обнаружен, значением будет NotDetected.

regions

OcrRegion[]

Массив объектов , где каждый объект представляет область распознанного текста.

textAngle

number

Угол обнаруженного текста в радианах относительно ближайшего горизонтального или вертикального направления. После поворота входного изображения по часовой стрелке на этот угол распознанные текстовые линии становятся горизонтальными или вертикальными. В сочетании со свойством orientation его можно использовать для правильного наложения результатов распознавания на исходное изображение путем поворота исходного изображения или результатов распознавания на подходящий угол вокруг центра исходного изображения. Если угол не может быть обнаружен уверенно, это свойство отсутствует. Если изображение содержит текст под разными углами, правильно распознается только часть текста.

OcrWord

Сведения об распознаваемом слове.

Имя Тип Описание
boundingBox

string

Ограничивающий прямоугольник распознанного слова. Четыре целых числа представляют координату X левого края, координату Y верхнего края, ширину и высоту ограничивающего прямоугольника в системе координат входного изображения после его поворота вокруг центра в соответствии с обнаруженным текстовым углом (см. свойство textAngle), с источником в левом верхнем углу и осью Y, указывающей вниз.

text

string

Строковое значение распознанного слова.