Поделиться через


Recognize Printed Text - Recognize Printed Text

Оптическое распознавание символов (OCR) обнаруживает текст на изображении и извлекает распознанные символы в поток символов, доступный для машинного использования. После успешного выполнения результаты OCR будут возвращены. После сбоя код ошибки вместе с сообщением об ошибке будет возвращен. Код ошибки может быть одним из invalidImageUrl, InvalidImageFormat, InvalidImageSize, NotSupportedImage, NotSupportedLanguage или InternalServerError.

POST {Endpoint}/vision/v3.2/ocr?detectOrientation={detectOrientation}
POST {Endpoint}/vision/v3.2/ocr?detectOrientation={detectOrientation}&language={language}&model-version={model-version}

Параметры URI

Имя В Обязательно Тип Описание
Endpoint
path True

string

Поддерживаемые конечные точки Cognitive Services.

detectOrientation
query True

boolean

Определяет ли ориентация текста на изображении. При использовании detectOrientation=true служба OCR пытается обнаружить ориентацию изображения и исправить ее перед дальнейшей обработкой (например, если она перевернута).

language
query

OcrLanguages

Код языка BCP-47 текста, который необходимо обнаружить на изображении. Значение по умолчанию — unk.

model-version
query

string

pattern: ^(latest|\d{4}-\d{2}-\d{2})(-preview)?$

Необязательный параметр, указывающий версию модели ИИ. Допустимые значения: "latest", "2021-04-01", "2021-05-01". По умолчанию используется значение "последняя".

Заголовок запроса

Имя Обязательно Тип Описание
Ocp-Apim-Subscription-Key True

string

Текст запроса

Имя Обязательно Тип Описание
url True

string

Общедоступный URL-адрес изображения.

Ответы

Имя Тип Описание
200 OK

OcrResult

OCR приводит к иерархии региона или строки или слова. Результаты включают текст, ограничивающий прямоугольник для регионов, строк и слов. Угол в радианах обнаруженного текста относительно ближайшего горизонтального или вертикального направления. После поворота входного изображения по часовой стрелке по этому углу распознанные текстовые линии становятся горизонтальными или вертикальными. В сочетании со свойством ориентации его можно использовать для правильного наложения результатов распознавания на исходное изображение, вращая исходный образ или результаты распознавания по подходящему углу вокруг центра исходного изображения. Если угол не удается обнаружить, это свойство отсутствует. Если изображение содержит текст в разных углах, то только часть текста будет распознана правильно.

Other Status Codes

ComputerVisionErrorResponse

Ответ на ошибку.

Безопасность

Ocp-Apim-Subscription-Key

Тип: apiKey
В: header

Примеры

Successful RecognizePrintedText request

Образец запроса

POST https://westus.api.cognitive.microsoft.com/vision/v3.2/ocr?detectOrientation=true&language=en


{
  "url": "{url}"
}

Пример ответа

{
  "language": "en",
  "textAngle": -2.0000000000000338,
  "orientation": "Up",
  "regions": [
    {
      "boundingBox": "462,379,497,258",
      "lines": [
        {
          "boundingBox": "462,379,497,74",
          "words": [
            {
              "boundingBox": "462,379,41,73",
              "text": "A"
            },
            {
              "boundingBox": "523,379,153,73",
              "text": "GOAL"
            },
            {
              "boundingBox": "694,379,265,74",
              "text": "WITHOUT"
            }
          ]
        },
        {
          "boundingBox": "565,471,289,74",
          "words": [
            {
              "boundingBox": "565,471,41,73",
              "text": "A"
            },
            {
              "boundingBox": "626,471,150,73",
              "text": "PLAN"
            },
            {
              "boundingBox": "801,472,53,73",
              "text": "IS"
            }
          ]
        },
        {
          "boundingBox": "519,563,375,74",
          "words": [
            {
              "boundingBox": "519,563,149,74",
              "text": "JUST"
            },
            {
              "boundingBox": "683,564,41,72",
              "text": "A"
            },
            {
              "boundingBox": "741,564,153,73",
              "text": "WISH"
            }
          ]
        }
      ]
    }
  ],
  "modelVersion": "2021-04-01"
}

Определения

Имя Описание
ComputerVisionError

Ошибка запроса API.

ComputerVisionErrorCodes

Код ошибки.

ComputerVisionErrorResponse

Ответ об ошибке API.

ComputerVisionInnerError

Сведения об ошибке запроса API.

ComputerVisionInnerErrorCodeValue

Код ошибки.

ImageUrl
OcrLanguages

Код языка BCP-47 текста, который необходимо обнаружить на изображении. Значение по умолчанию — unk.

OcrLine

Объект, описывающий одну распознаваемую строку текста.

OcrRegion

Область состоит из нескольких строк (например, столбца текста в документе с несколькими столбцами).

OcrResult
OcrWord

Сведения о распознаваемом слове.

ComputerVisionError

Ошибка запроса API.

Имя Тип Описание
code

ComputerVisionErrorCodes

Код ошибки.

innererror

ComputerVisionInnerError

Внутренняя ошибка содержит более конкретные сведения.

message

string

Сообщение, объясняющее ошибку, сообщаемую службой.

ComputerVisionErrorCodes

Код ошибки.

Значение Описание
InternalServerError
InvalidArgument
InvalidRequest
ServiceUnavailable

ComputerVisionErrorResponse

Ответ об ошибке API.

Имя Тип Описание
error

ComputerVisionError

Содержимое ошибки.

ComputerVisionInnerError

Сведения об ошибке запроса API.

Имя Тип Описание
code

ComputerVisionInnerErrorCodeValue

Код ошибки.

message

string

Сообщение об ошибке.

ComputerVisionInnerErrorCodeValue

Код ошибки.

Значение Описание
BadArgument
CancelledRequest
DetectFaceError
FailedToProcess
InternalServerError
InvalidDetails
InvalidImageFormat
InvalidImageSize
InvalidImageUrl
InvalidModel
InvalidThumbnailSize
NotSupportedFeature
NotSupportedImage
NotSupportedLanguage
NotSupportedVisualFeature
StorageException
Timeout
Unspecified
UnsupportedMediaType

ImageUrl

Имя Тип Описание
url

string

Общедоступный URL-адрес изображения.

OcrLanguages

Код языка BCP-47 текста, который необходимо обнаружить на изображении. Значение по умолчанию — unk.

Значение Описание
ar
cs
da
de
el
en
es
fi
fr
hu
it
ja
ko
nb
nl
pl
pt
ro
ru
sk
sr-Cyrl
sr-Latn
sv
tr
unk
zh-Hans
zh-Hant

OcrLine

Объект, описывающий одну распознаваемую строку текста.

Имя Тип Описание
boundingBox

string

Ограничивающий прямоугольник распознанной строки. Четыре целых числа представляют координату x левого края, координату y верхнего края, ширину и высоту ограничивающего прямоугольника в системе координат входного изображения после поворота вокруг его центра в соответствии с обнаруженным текстовым углом (см. свойство TextAngle) с источником в левом верхнем углу и осью y, указывающей вниз.

words

OcrWord[]

Массив объектов, где каждый объект представляет распознаваемое слово.

OcrRegion

Область состоит из нескольких строк (например, столбца текста в документе с несколькими столбцами).

Имя Тип Описание
boundingBox

string

Ограничивающий прямоугольник распознанного региона. Четыре целых числа представляют координату x левого края, координату y верхнего края, ширину и высоту ограничивающего прямоугольника в системе координат входного изображения после поворота вокруг его центра в соответствии с обнаруженным текстовым углом (см. свойство TextAngle) с источником в левом верхнем углу и осью y, указывающей вниз.

lines

OcrLine[]

Массив распознанных строк текста.

OcrResult

Имя Тип Описание
language

string

Код языка BCP-47 текста на изображении.

modelVersion

string

pattern: ^(latest|\d{4}-\d{2}-\d{2})(-preview)?$

Версия модели ИИ.

orientation

string

Ориентация текста, распознанного на изображении, если он запрошен. Значение (вверх, вниз, влево или вправо) ссылается на направление, в которое сталкивается верхняя часть распознанного текста, после поворота изображения вокруг его центра в соответствии с обнаруженным углом текста (см. свойство TextAngle). Если обнаружение ориентации не было запрошено или текст не обнаружен, значение равно "NotDetected".

regions

OcrRegion[]

Массив объектов, где каждый объект представляет область распознанного текста.

textAngle

number (double)

Угол в радианах обнаруженного текста относительно ближайшего горизонтального или вертикального направления. После поворота входного изображения по часовой стрелке по этому углу распознанные текстовые линии становятся горизонтальными или вертикальными. В сочетании со свойством ориентации его можно использовать для правильного наложения результатов распознавания на исходное изображение, вращая исходный образ или результаты распознавания по подходящему углу вокруг центра исходного изображения. Если угол не удается обнаружить, это свойство отсутствует. Если изображение содержит текст в разных углах, то только часть текста будет распознана правильно.

OcrWord

Сведения о распознаваемом слове.

Имя Тип Описание
boundingBox

string

Ограничивающий прямоугольник распознанного слова. Четыре целых числа представляют координату x левого края, координату y верхнего края, ширину и высоту ограничивающего прямоугольника в системе координат входного изображения после поворота вокруг его центра в соответствии с обнаруженным текстовым углом (см. свойство TextAngle) с источником в левом верхнем углу и осью y, указывающей вниз.

text

string

Строковое значение распознанного слова.