Compartilhar via


Recognize Printed Text - Recognize Printed Text

O OCR (reconhecimento óptico de caracteres) detecta o texto em uma imagem e extrai os caracteres reconhecidos para um fluxo de caracteres utilizável por computador. Após o sucesso, os resultados do OCR serão retornados. Após a falha, o código de erro junto com uma mensagem de erro será retornado. O código de erro pode ser um de InvalidImageUrl, InvalidImageFormat, InvalidImageSize, NotSupportedImage, NotSupportedLanguage ou InternalServerError.

POST {Endpoint}/vision/v3.2/ocr?detectOrientation={detectOrientation}
POST {Endpoint}/vision/v3.2/ocr?detectOrientation={detectOrientation}&language={language}&model-version={model-version}

Parâmetros de URI

Nome Em Obrigatório Tipo Description
Endpoint
path True

string

Pontos de extremidade dos Serviços Cognitivos com suporte.

detectOrientation
query True

boolean

Se detecta a orientação de texto na imagem. Com detectOrientation=true, o serviço OCR tenta detectar a orientação da imagem e corrigi-la antes de processamento adicional (por exemplo, se estiver de cabeça para baixo).

language
query

OcrLanguages

O código de linguagem BCP-47 do texto a ser detectado na imagem. O valor padrão é 'unk'.

model-version
query

string

Parâmetro opcional para especificar a versão do modelo de IA. Os valores aceitos são: "mais recente", "2021-04-01", "2021-05-01". O padrão é "mais recente".

Padrão Regex: ^(latest|\d{4}-\d{2}-\d{2})(-preview)?$

Cabeçalho da solicitação

Nome Obrigatório Tipo Description
Ocp-Apim-Subscription-Key True

string

Corpo da solicitação

Nome Obrigatório Tipo Description
url True

string

URL acessível publicamente de uma imagem.

Respostas

Nome Tipo Description
200 OK

OcrResult

O OCR resulta na hierarquia de região/linha/palavra. Os resultados incluem texto, caixa delimitadora para regiões, linhas e palavras. O ângulo, em radianos, do texto detectado em relação à direção horizontal ou vertical mais próxima. Depois de girar a imagem de entrada no sentido horário por esse ângulo, as linhas de texto reconhecidas se tornam horizontais ou verticais. Em combinação com a propriedade de orientação, ela pode ser usada para sobrepor os resultados de reconhecimento corretamente na imagem original, girando a imagem original ou os resultados do reconhecimento por um ângulo adequado ao redor do centro da imagem original. Se o ângulo não puder ser detectado com confiança, essa propriedade não estará presente. Se a imagem contiver texto em ângulos diferentes, somente parte do texto será reconhecida corretamente.

Other Status Codes

ComputerVisionErrorResponse

Resposta de erro.

Segurança

Ocp-Apim-Subscription-Key

Tipo: apiKey
Em: header

Exemplos

Successful RecognizePrintedText request

Solicitação de exemplo

POST https://westus.api.cognitive.microsoft.com/vision/v3.2/ocr?detectOrientation=true&language=en


{
  "url": "{url}"
}

Resposta de exemplo

{
  "language": "en",
  "textAngle": -2.0000000000000338,
  "orientation": "Up",
  "regions": [
    {
      "boundingBox": "462,379,497,258",
      "lines": [
        {
          "boundingBox": "462,379,497,74",
          "words": [
            {
              "boundingBox": "462,379,41,73",
              "text": "A"
            },
            {
              "boundingBox": "523,379,153,73",
              "text": "GOAL"
            },
            {
              "boundingBox": "694,379,265,74",
              "text": "WITHOUT"
            }
          ]
        },
        {
          "boundingBox": "565,471,289,74",
          "words": [
            {
              "boundingBox": "565,471,41,73",
              "text": "A"
            },
            {
              "boundingBox": "626,471,150,73",
              "text": "PLAN"
            },
            {
              "boundingBox": "801,472,53,73",
              "text": "IS"
            }
          ]
        },
        {
          "boundingBox": "519,563,375,74",
          "words": [
            {
              "boundingBox": "519,563,149,74",
              "text": "JUST"
            },
            {
              "boundingBox": "683,564,41,72",
              "text": "A"
            },
            {
              "boundingBox": "741,564,153,73",
              "text": "WISH"
            }
          ]
        }
      ]
    }
  ],
  "modelVersion": "2021-04-01"
}

Definições

Nome Description
ComputerVisionError

O erro de solicitação de API.

ComputerVisionErrorCodes

O código de erro.

ComputerVisionErrorResponse

A resposta de erro da API.

ComputerVisionInnerError

Detalhes sobre o erro de solicitação de API.

ComputerVisionInnerErrorCodeValue

O código de erro.

ImageUrl
OcrLanguages

O código de linguagem BCP-47 do texto a ser detectado na imagem. O valor padrão é 'unk'.

OcrLine

Um objeto que descreve uma única linha de texto reconhecida.

OcrRegion

Uma região consiste em várias linhas (por exemplo, uma coluna de texto em um documento de várias colunas).

OcrResult
OcrWord

Informações sobre uma palavra reconhecida.

ComputerVisionError

O erro de solicitação de API.

Nome Tipo Description
code

ComputerVisionErrorCodes

O código de erro.

innererror

ComputerVisionInnerError

O erro interno contém informações mais específicas.

message

string

Uma mensagem explicando o erro relatado pelo serviço.

ComputerVisionErrorCodes

O código de erro.

Nome Tipo Description
InternalServerError

string

InvalidArgument

string

InvalidRequest

string

ServiceUnavailable

string

ComputerVisionErrorResponse

A resposta de erro da API.

Nome Tipo Description
error

ComputerVisionError

Conteúdo do erro.

ComputerVisionInnerError

Detalhes sobre o erro de solicitação de API.

Nome Tipo Description
code

ComputerVisionInnerErrorCodeValue

O código de erro.

message

string

Mensagem de erro.

ComputerVisionInnerErrorCodeValue

O código de erro.

Nome Tipo Description
BadArgument

string

CancelledRequest

string

DetectFaceError

string

FailedToProcess

string

InternalServerError

string

InvalidDetails

string

InvalidImageFormat

string

InvalidImageSize

string

InvalidImageUrl

string

InvalidModel

string

InvalidThumbnailSize

string

NotSupportedFeature

string

NotSupportedImage

string

NotSupportedLanguage

string

NotSupportedVisualFeature

string

StorageException

string

Timeout

string

Unspecified

string

UnsupportedMediaType

string

ImageUrl

Nome Tipo Description
url

string

URL acessível publicamente de uma imagem.

OcrLanguages

O código de linguagem BCP-47 do texto a ser detectado na imagem. O valor padrão é 'unk'.

Nome Tipo Description
ar

string

cs

string

da

string

de

string

el

string

en

string

es

string

fi

string

fr

string

hu

string

it

string

ja

string

ko

string

nb

string

nl

string

pl

string

pt

string

ro

string

ru

string

sk

string

sr-Cyrl

string

sr-Latn

string

sv

string

tr

string

unk

string

zh-Hans

string

zh-Hant

string

OcrLine

Um objeto que descreve uma única linha de texto reconhecida.

Nome Tipo Description
boundingBox

string

Caixa delimitadora de uma linha reconhecida. Os quatro inteiros representam a coordenada x da borda esquerda, a coordenada y da borda superior, largura e altura da caixa delimitadora, no sistema de coordenadas da imagem de entrada, depois de ter sido girada em torno de seu centro de acordo com o ângulo de texto detectado (consulte a propriedade textAngle), com a origem no canto superior esquerdo e o eixo y apontando para baixo.

words

OcrWord[]

Uma matriz de objetos, em que cada objeto representa uma palavra reconhecida.

OcrRegion

Uma região consiste em várias linhas (por exemplo, uma coluna de texto em um documento de várias colunas).

Nome Tipo Description
boundingBox

string

Caixa delimitadora de uma região reconhecida. Os quatro inteiros representam a coordenada x da borda esquerda, a coordenada y da borda superior, largura e altura da caixa delimitadora, no sistema de coordenadas da imagem de entrada, depois de ter sido girada em torno de seu centro de acordo com o ângulo de texto detectado (consulte a propriedade textAngle), com a origem no canto superior esquerdo e o eixo y apontando para baixo.

lines

OcrLine[]

Uma matriz de linhas de texto reconhecidas.

OcrResult

Nome Tipo Description
language

string

O código de linguagem BCP-47 do texto na imagem.

modelVersion

string

Versão do modelo de IA.

orientation

string

Orientação do texto reconhecido na imagem, se solicitado. O valor (para cima, para baixo, para a esquerda ou para a direita) refere-se à direção que a parte superior do texto reconhecido está voltada, depois que a imagem é girada em torno de seu centro de acordo com o ângulo de texto detectado (consulte a propriedade textAngle). Se a detecção da orientação não tiver sido solicitada ou nenhum texto for detectado, o valor será 'NotDetected'.

regions

OcrRegion[]

Uma matriz de objetos, em que cada objeto representa uma região de texto reconhecido.

textAngle

number

O ângulo, em radianos, do texto detectado em relação à direção horizontal ou vertical mais próxima. Depois de girar a imagem de entrada no sentido horário por esse ângulo, as linhas de texto reconhecidas se tornam horizontais ou verticais. Em combinação com a propriedade de orientação, ela pode ser usada para sobrepor os resultados de reconhecimento corretamente na imagem original, girando a imagem original ou os resultados do reconhecimento por um ângulo adequado ao redor do centro da imagem original. Se o ângulo não puder ser detectado com confiança, essa propriedade não estará presente. Se a imagem contiver texto em ângulos diferentes, somente parte do texto será reconhecida corretamente.

OcrWord

Informações sobre uma palavra reconhecida.

Nome Tipo Description
boundingBox

string

Caixa delimitadora de uma palavra reconhecida. Os quatro inteiros representam a coordenada x da borda esquerda, a coordenada y da borda superior, largura e altura da caixa delimitadora, no sistema de coordenadas da imagem de entrada, depois de ter sido girada em torno de seu centro de acordo com o ângulo de texto detectado (consulte a propriedade textAngle), com a origem no canto superior esquerdo e o eixo y apontando para baixo.

text

string

Valor de cadeia de caracteres de uma palavra reconhecida.