Recognize Printed Text - Recognize Printed Text

Referencia

Servicio:: Azure AI Services

Versión de la API:: 2.1

El reconocimiento óptico de caracteres (OCR) detecta el texto de una imagen y extrae los caracteres reconocidos en una secuencia de caracteres que se puede usar en una máquina. Si se ejecuta correctamente, se devolverán los resultados de OCR. Tras un error, se devolverá el código de error junto con un mensaje de error. El código de error puede ser uno de InvalidImageUrl, InvalidImageFormat, InvalidImageSize, NotSupportedImage, NotSupportedLanguage o InternalServerError.

POST {Endpoint}/vision/v2.1/ocr?detectOrientation={detectOrientation}

Con parámetros opcionales:

POST {Endpoint}/vision/v2.1/ocr?detectOrientation={detectOrientation}&language={language}

Parámetros de identificador URI

Nombre	En	Requerido	Tipo	Description
Endpoint	path	True	string	Puntos de conexión de Cognitive Services admitidos.
detectOrientation	query	True	boolean	Si detecta la orientación del texto en la imagen. Con detectOrientation=true, el servicio OCR intenta detectar la orientación de la imagen y corregirla antes de su posterior procesamiento (por ejemplo, si está al revés).
language	query		OcrLanguages	Código de idioma BCP-47 del texto que se va a detectar en la imagen. El valor predeterminado es "unk".

Encabezado de la solicitud

Nombre	Requerido	Tipo	Description
Ocp-Apim-Subscription-Key	True	string

Cuerpo de la solicitud

Nombre	Requerido	Tipo	Description
url	True	string	Dirección URL accesible públicamente de una imagen.

Respuestas

Nombre	Tipo	Description
200 OK	OcrResult	El OCR da como resultado la jerarquía de region/line/word. Los resultados incluyen texto, cuadro de límite para regiones, líneas y palabras. Ángulo, en radianes, del texto detectado con respecto a la dirección horizontal o vertical más cercana. Después de girar la imagen de entrada en el sentido de las agujas del reloj por este ángulo, las líneas de texto reconocidas se convierten en horizontal o vertical. En combinación con la propiedad orientation, se puede usar para superponer los resultados del reconocimiento correctamente en la imagen original, girando la imagen original o los resultados del reconocimiento por un ángulo adecuado alrededor del centro de la imagen original. Si el ángulo no se puede detectar con confianza, esta propiedad no está presente. Si la imagen contiene texto en distintos ángulos, solo se reconocerá correctamente parte del texto.
Other Status Codes	ComputerVisionError	Respuesta de error.

Seguridad

Ocp-Apim-Subscription-Key

Tipo: apiKey
En: header

Ejemplos

Successful RecognizePrintedText request

Solicitud de ejemplo

HTTP

POST https://westus.api.cognitive.microsoft.com/vision/v2.1/ocr?detectOrientation=true&language=en


"{url}"

Respuesta de muestra

status code:: 200

{
  "language": "en",
  "textAngle": -2.0000000000000338,
  "orientation": "Up",
  "regions": [
    {
      "boundingBox": "462,379,497,258",
      "lines": [
        {
          "boundingBox": "462,379,497,74",
          "words": [
            {
              "boundingBox": "462,379,41,73",
              "text": "A"
            },
            {
              "boundingBox": "523,379,153,73",
              "text": "GOAL"
            },
            {
              "boundingBox": "694,379,265,74",
              "text": "WITHOUT"
            }
          ]
        },
        {
          "boundingBox": "565,471,289,74",
          "words": [
            {
              "boundingBox": "565,471,41,73",
              "text": "A"
            },
            {
              "boundingBox": "626,471,150,73",
              "text": "PLAN"
            },
            {
              "boundingBox": "801,472,53,73",
              "text": "IS"
            }
          ]
        },
        {
          "boundingBox": "519,563,375,74",
          "words": [
            {
              "boundingBox": "519,563,149,74",
              "text": "JUST"
            },
            {
              "boundingBox": "683,564,41,72",
              "text": "A"
            },
            {
              "boundingBox": "741,564,153,73",
              "text": "WISH"
            }
          ]
        }
      ]
    }
  ]
}

Definiciones

Nombre	Description
ComputerVisionError	Detalles sobre el error de solicitud de API.
ComputerVisionErrorCodes	Código de error.
ImageUrl
OcrLanguages	Código de idioma BCP-47 del texto que se va a detectar en la imagen. El valor predeterminado es "unk".
OcrLine	Objeto que describe una sola línea de texto reconocida.
OcrRegion	Una región consta de varias líneas (por ejemplo, una columna de texto en un documento de varias columnas).
OcrResult
OcrWord	Información sobre una palabra reconocida.

ComputerVisionError

Detalles sobre el error de solicitud de API.

Nombre	Tipo	Description
code	ComputerVisionErrorCodes	Código de error.
message	string	Mensaje que explica el error notificado por el servicio.
requestId	string	Identificador de solicitud único.

ComputerVisionErrorCodes

Código de error.

Nombre	Tipo	Description
BadArgument	string
CancelledRequest	string
DetectFaceError	string
FailedToProcess	string
InternalServerError	string
InvalidDetails	string
InvalidImageFormat	string
InvalidImageSize	string
InvalidImageUrl	string
InvalidModel	string
InvalidThumbnailSize	string
NotSupportedFeature	string
NotSupportedImage	string
NotSupportedLanguage	string
NotSupportedVisualFeature	string
StorageException	string
Timeout	string
Unspecified	string
UnsupportedMediaType	string

ImageUrl

Nombre	Tipo	Description
url	string	Dirección URL accesible públicamente de una imagen.

OcrLanguages

Código de idioma BCP-47 del texto que se va a detectar en la imagen. El valor predeterminado es "unk".

Nombre	Tipo	Description
ar	string
cs	string
da	string
de	string
el	string
en	string
es	string
fi	string
fr	string
hu	string
it	string
ja	string
ko	string
nb	string
nl	string
pl	string
pt	string
ro	string
ru	string
sk	string
sr-Cyrl	string
sr-Latn	string
sv	string
tr	string
unk	string
zh-Hans	string
zh-Hant	string

OcrLine

Objeto que describe una sola línea de texto reconocida.

Nombre	Tipo	Description
boundingBox	string	Rectángulo delimitador de una línea reconocida. Los cuatro enteros representan la coordenada x del borde izquierdo, la coordenada y del borde superior, el ancho y el alto del cuadro de límite, en el sistema de coordenadas de la imagen de entrada, después de girar alrededor de su centro según el ángulo de texto detectado (vea la propiedad textAngle), con el origen en la esquina superior izquierda y el eje y apuntando hacia abajo.
words	OcrWord[]	Matriz de objetos, donde cada objeto representa una palabra reconocida.

OcrRegion

Una región consta de varias líneas (por ejemplo, una columna de texto en un documento de varias columnas).

Nombre	Tipo	Description
boundingBox	string	Rectángulo de límite de una región reconocida. Los cuatro enteros representan la coordenada x del borde izquierdo, la coordenada y del borde superior, el ancho y el alto del cuadro de límite, en el sistema de coordenadas de la imagen de entrada, después de girar alrededor de su centro según el ángulo de texto detectado (vea la propiedad textAngle), con el origen en la esquina superior izquierda y el eje y apuntando hacia abajo.
lines	OcrLine[]	Matriz de líneas de texto reconocidas.

OcrResult

Nombre	Tipo	Description
language	string	Código de idioma BCP-47 del texto de la imagen.
orientation	string	Orientación del texto reconocido en la imagen, si se solicita. El valor (arriba, abajo, izquierda o derecha) hace referencia a la dirección a la que está orientada la parte superior del texto reconocido, después de que la imagen se haya girado alrededor de su centro según el ángulo de texto detectado (vea la propiedad textAngle). Si no se solicitó la detección de la orientación o no se detecta ningún texto, el valor es "NotDetected".
regions	OcrRegion[]	Matriz de objetos, donde cada objeto representa una región de texto reconocido.
textAngle	number	Ángulo, en radianes, del texto detectado con respecto a la dirección horizontal o vertical más cercana. Después de girar la imagen de entrada en el sentido de las agujas del reloj por este ángulo, las líneas de texto reconocidas se convierten en horizontal o vertical. En combinación con la propiedad orientation, se puede usar para superponer los resultados del reconocimiento correctamente en la imagen original, girando la imagen original o los resultados del reconocimiento por un ángulo adecuado alrededor del centro de la imagen original. Si el ángulo no se puede detectar con confianza, esta propiedad no está presente. Si la imagen contiene texto en distintos ángulos, solo se reconocerá correctamente parte del texto.

OcrWord

Información sobre una palabra reconocida.

Nombre	Tipo	Description
boundingBox	string	Rectángulo delimitador de una palabra reconocida. Los cuatro enteros representan la coordenada x del borde izquierdo, la coordenada y del borde superior, el ancho y el alto del cuadro de límite, en el sistema de coordenadas de la imagen de entrada, después de girar alrededor de su centro según el ángulo de texto detectado (vea la propiedad textAngle), con el origen en la esquina superior izquierda y el eje y apuntando hacia abajo.
text	string	Valor de cadena de una palabra reconocida.

Compartir a través de