Compartir a través de


Recognize Printed Text - Recognize Printed Text

El reconocimiento óptico de caracteres (OCR) detecta el texto de una imagen y extrae los caracteres reconocidos en una secuencia de caracteres que se puede usar en una máquina. Si se ejecuta correctamente, se devolverán los resultados de OCR. Tras un error, se devolverá el código de error junto con un mensaje de error. El código de error puede ser uno de InvalidImageUrl, InvalidImageFormat, InvalidImageSize, NotSupportedImage, NotSupportedLanguage o InternalServerError.

POST {Endpoint}/vision/v2.1/ocr?detectOrientation={detectOrientation}
POST {Endpoint}/vision/v2.1/ocr?detectOrientation={detectOrientation}&language={language}

Parámetros de identificador URI

Nombre En Requerido Tipo Description
Endpoint
path True

string

Puntos de conexión de Cognitive Services admitidos.

detectOrientation
query True

boolean

Si detecta la orientación del texto en la imagen. Con detectOrientation=true, el servicio OCR intenta detectar la orientación de la imagen y corregirla antes de su posterior procesamiento (por ejemplo, si está al revés).

language
query

OcrLanguages

Código de idioma BCP-47 del texto que se va a detectar en la imagen. El valor predeterminado es "unk".

Encabezado de la solicitud

Nombre Requerido Tipo Description
Ocp-Apim-Subscription-Key True

string

Cuerpo de la solicitud

Nombre Requerido Tipo Description
url True

string

Dirección URL accesible públicamente de una imagen.

Respuestas

Nombre Tipo Description
200 OK

OcrResult

El OCR da como resultado la jerarquía de region/line/word. Los resultados incluyen texto, cuadro de límite para regiones, líneas y palabras. Ángulo, en radianes, del texto detectado con respecto a la dirección horizontal o vertical más cercana. Después de girar la imagen de entrada en el sentido de las agujas del reloj por este ángulo, las líneas de texto reconocidas se convierten en horizontal o vertical. En combinación con la propiedad orientation, se puede usar para superponer los resultados del reconocimiento correctamente en la imagen original, girando la imagen original o los resultados del reconocimiento por un ángulo adecuado alrededor del centro de la imagen original. Si el ángulo no se puede detectar con confianza, esta propiedad no está presente. Si la imagen contiene texto en distintos ángulos, solo se reconocerá correctamente parte del texto.

Other Status Codes

ComputerVisionError

Respuesta de error.

Seguridad

Ocp-Apim-Subscription-Key

Tipo: apiKey
En: header

Ejemplos

Successful RecognizePrintedText request

Solicitud de ejemplo

POST https://westus.api.cognitive.microsoft.com/vision/v2.1/ocr?detectOrientation=true&language=en


"{url}"

Respuesta de muestra

{
  "language": "en",
  "textAngle": -2.0000000000000338,
  "orientation": "Up",
  "regions": [
    {
      "boundingBox": "462,379,497,258",
      "lines": [
        {
          "boundingBox": "462,379,497,74",
          "words": [
            {
              "boundingBox": "462,379,41,73",
              "text": "A"
            },
            {
              "boundingBox": "523,379,153,73",
              "text": "GOAL"
            },
            {
              "boundingBox": "694,379,265,74",
              "text": "WITHOUT"
            }
          ]
        },
        {
          "boundingBox": "565,471,289,74",
          "words": [
            {
              "boundingBox": "565,471,41,73",
              "text": "A"
            },
            {
              "boundingBox": "626,471,150,73",
              "text": "PLAN"
            },
            {
              "boundingBox": "801,472,53,73",
              "text": "IS"
            }
          ]
        },
        {
          "boundingBox": "519,563,375,74",
          "words": [
            {
              "boundingBox": "519,563,149,74",
              "text": "JUST"
            },
            {
              "boundingBox": "683,564,41,72",
              "text": "A"
            },
            {
              "boundingBox": "741,564,153,73",
              "text": "WISH"
            }
          ]
        }
      ]
    }
  ]
}

Definiciones

Nombre Description
ComputerVisionError

Detalles sobre el error de solicitud de API.

ComputerVisionErrorCodes

Código de error.

ImageUrl
OcrLanguages

Código de idioma BCP-47 del texto que se va a detectar en la imagen. El valor predeterminado es "unk".

OcrLine

Objeto que describe una sola línea de texto reconocida.

OcrRegion

Una región consta de varias líneas (por ejemplo, una columna de texto en un documento de varias columnas).

OcrResult
OcrWord

Información sobre una palabra reconocida.

ComputerVisionError

Detalles sobre el error de solicitud de API.

Nombre Tipo Description
code

ComputerVisionErrorCodes

Código de error.

message

string

Mensaje que explica el error notificado por el servicio.

requestId

string

Identificador de solicitud único.

ComputerVisionErrorCodes

Código de error.

Nombre Tipo Description
BadArgument

string

CancelledRequest

string

DetectFaceError

string

FailedToProcess

string

InternalServerError

string

InvalidDetails

string

InvalidImageFormat

string

InvalidImageSize

string

InvalidImageUrl

string

InvalidModel

string

InvalidThumbnailSize

string

NotSupportedFeature

string

NotSupportedImage

string

NotSupportedLanguage

string

NotSupportedVisualFeature

string

StorageException

string

Timeout

string

Unspecified

string

UnsupportedMediaType

string

ImageUrl

Nombre Tipo Description
url

string

Dirección URL accesible públicamente de una imagen.

OcrLanguages

Código de idioma BCP-47 del texto que se va a detectar en la imagen. El valor predeterminado es "unk".

Nombre Tipo Description
ar

string

cs

string

da

string

de

string

el

string

en

string

es

string

fi

string

fr

string

hu

string

it

string

ja

string

ko

string

nb

string

nl

string

pl

string

pt

string

ro

string

ru

string

sk

string

sr-Cyrl

string

sr-Latn

string

sv

string

tr

string

unk

string

zh-Hans

string

zh-Hant

string

OcrLine

Objeto que describe una sola línea de texto reconocida.

Nombre Tipo Description
boundingBox

string

Rectángulo delimitador de una línea reconocida. Los cuatro enteros representan la coordenada x del borde izquierdo, la coordenada y del borde superior, el ancho y el alto del cuadro de límite, en el sistema de coordenadas de la imagen de entrada, después de girar alrededor de su centro según el ángulo de texto detectado (vea la propiedad textAngle), con el origen en la esquina superior izquierda y el eje y apuntando hacia abajo.

words

OcrWord[]

Matriz de objetos, donde cada objeto representa una palabra reconocida.

OcrRegion

Una región consta de varias líneas (por ejemplo, una columna de texto en un documento de varias columnas).

Nombre Tipo Description
boundingBox

string

Rectángulo de límite de una región reconocida. Los cuatro enteros representan la coordenada x del borde izquierdo, la coordenada y del borde superior, el ancho y el alto del cuadro de límite, en el sistema de coordenadas de la imagen de entrada, después de girar alrededor de su centro según el ángulo de texto detectado (vea la propiedad textAngle), con el origen en la esquina superior izquierda y el eje y apuntando hacia abajo.

lines

OcrLine[]

Matriz de líneas de texto reconocidas.

OcrResult

Nombre Tipo Description
language

string

Código de idioma BCP-47 del texto de la imagen.

orientation

string

Orientación del texto reconocido en la imagen, si se solicita. El valor (arriba, abajo, izquierda o derecha) hace referencia a la dirección a la que está orientada la parte superior del texto reconocido, después de que la imagen se haya girado alrededor de su centro según el ángulo de texto detectado (vea la propiedad textAngle). Si no se solicitó la detección de la orientación o no se detecta ningún texto, el valor es "NotDetected".

regions

OcrRegion[]

Matriz de objetos, donde cada objeto representa una región de texto reconocido.

textAngle

number

Ángulo, en radianes, del texto detectado con respecto a la dirección horizontal o vertical más cercana. Después de girar la imagen de entrada en el sentido de las agujas del reloj por este ángulo, las líneas de texto reconocidas se convierten en horizontal o vertical. En combinación con la propiedad orientation, se puede usar para superponer los resultados del reconocimiento correctamente en la imagen original, girando la imagen original o los resultados del reconocimiento por un ángulo adecuado alrededor del centro de la imagen original. Si el ángulo no se puede detectar con confianza, esta propiedad no está presente. Si la imagen contiene texto en distintos ángulos, solo se reconocerá correctamente parte del texto.

OcrWord

Información sobre una palabra reconocida.

Nombre Tipo Description
boundingBox

string

Rectángulo delimitador de una palabra reconocida. Los cuatro enteros representan la coordenada x del borde izquierdo, la coordenada y del borde superior, el ancho y el alto del cuadro de límite, en el sistema de coordenadas de la imagen de entrada, después de girar alrededor de su centro según el ángulo de texto detectado (vea la propiedad textAngle), con el origen en la esquina superior izquierda y el eje y apuntando hacia abajo.

text

string

Valor de cadena de una palabra reconocida.