OCR: reconocimiento óptico de caracteres

Artículo
10/18/2024

El reconocimiento óptico de caracteres o OCR también se conoce como reconocimiento de texto o extracción de texto. Las técnicas de OCR basadas en el aprendizaje automático permiten extraer texto impreso o manuscrito de imágenes, como carteles, señales de tráfico y etiquetas de productos, así como de documentos como artículos, informes, formularios y facturas. El texto se extrae normalmente como palabras, líneas de texto y párrafos o bloques de texto, lo que permite el acceso a la versión digital del texto escaneado. Esto elimina o reduce significativamente la necesidad de entrada manual de datos.

Motor de OCR

El motor lectura de OCR de Microsoft se compone de múltiples modelos avanzados basados en el aprendizaje automático que admiten idiomas de todo el mundo. Puede extraer texto impreso y manuscrito, incluidos idiomas y estilos de escritura mixtos. Read está disponible como servicio en la nube y contenedor local para la flexibilidad de implementación. También está disponible como API sincrónica para escenarios únicos, sin documentos y solo de imágenes con mejoras de rendimiento que facilitan la implementación de experiencias de usuario asistidas por OCR.

Advertencia

Las operaciones Azure AI Vision heredado OCR API en v3.2 y RecognizeText API en v2.1 no se recomiendan para su uso.

Ediciones de OCR (Read)

Importante

Seleccione la edición de Read que mejor se adapte a sus requisitos.

Entrada	Ejemplos	Edición de lectura	Prestación
Imágenes: Imágenes generales	etiquetas, carteles y pósteres	OCR para imágenes (versión 4.0)	Optimizada para imágenes generales, no provenientes de documentos, con una API sincrónica con rendimiento mejorado que facilita la inserción de experiencias con tecnología de OCR en los escenarios de experiencia de usuario.
Documentos: Digitales y digitalizados, incluidas las imágenes	libros, artículos e informes	Modelo de lectura del documento de inteligencia	Optimizado para documentos digitales y que contienen gran cantidad de texto digitalizado con una API asincrónica para ayudar a automatizar el procesamiento inteligente de documentos a escala.

Acerca de la lectura de Visión de Azure AI v3.2 de disponibilidad general

¿Busca la versión de lectura de disponibilidad general de Visión de Azure AI v3.2? Todas las futuras mejoras de la lectura por OCR forman parte de los dos servicios enumerados anteriormente. No habrá más actualizaciones de Visión de Azure AI v3.2. Para más información, consulte Llamada a la Read API de disponibilidad general de Visión de Azure AI 3.2 e Inicio rápido: Lectura de Visión de Azure AI v3.2 (disponibilidad general).

El procesamiento inteligente de documentos (IDP) usa OCR como tecnología fundamental para además extraer la estructura, las relaciones, los valores clave, las entidades y otras conclusiones centradas en el documento con un servicio avanzado de inteligencia artificial basado en aprendizaje automático, como Document Intelligence. Document Intelligence incluye una versión optimizada para documentos de tipo Lectura como motor de OCR mientras delega a otros modelos la tarea de obtener información de nivel superior. Si va a extraer texto de documentos digitales y escaneados, use el Lectura de OCR para Document Intelligence.

Uso de OCR

Pruebe OCR mediante Vision Studio. A continuación, siga uno de los enlaces a la edición de lectura que mejor se adapte a sus necesidades.

Prueba de Vision Studio

Captura de pantalla: demostración de OCR de Read en Vision Studio.

Idiomas compatibles con OCR

Ambas versiones de Lectura disponibles en Visión de Azure AI admiten varios idiomas para texto impreso y manuscrito. OCR para texto impreso tiene compatibilidad con inglés, francés, alemán, italiano, portugués, español, chino, japonés, coreano, ruso, árabe, hindi y otros idiomas internacionales que usan scripts latinos, cirílicos, árabes y devanagari. El OCR de texto manuscrito tiene compatibilidad con inglés, chino simplificado, francés, alemán, italiano, japonés, coreano, portugués y español.

Consulte la lista completa de idiomas admitidos por OCR.

Características comunes de OCR

El modelo de Lectura de OCR está disponible en Visión de Azure AI y Document Intelligence con funcionalidades de línea base comunes, mientras se optimiza para sus respectivos escenarios. En la lista siguiente se resumen las características comunes:

Extracción de texto impreso y manuscrito en idiomas admitidos
Páginas, líneas de texto y palabras con puntuaciones de ubicación y confianza
Compatibilidad con idiomas mixtos, modo mixto (impresión y escritura a mano)
Disponible como contenedor sin distribución de Docker para la implementación local

Uso de API de Cloud de OCR o implementación local

Las API de Cloud son la opción preferida para la mayoría de los clientes debido a su facilidad de integración y su inmediata productividad. Azure y el servicio Visión de Azure AI controlan las necesidades de escalado, rendimiento, seguridad de los datos y cumplimiento, lo que le permite centrarse en satisfacer las necesidades de sus clientes.

En las implementaciones locales, el contenedor Docker de Lectura le permite implementar las funcionalidades del OCR de Visión de Azure AI v3.2 con disponibilidad general en su entorno local. Los contenedores son excelentes para requisitos específicos de control de datos y seguridad.

Requisitos de entrada

La API de lectura usa las imágenes y los documentos como entrada. Las imágenes y documentos deben cumplir los siguientes requisitos:

Los formatos de archivo admitidos son JPEG, PNG, BMP, PDF y TIFF.
En el caso de los archivos PDF y TIFF, se procesan hasta 2000 páginas (solo las primeras dos páginas en el nivel Gratis).
El tamaño de archivo de las imágenes debe ser inferior a 500 MB (4 MB para el nivel libre) con dimensiones como mínimo de 50 x 50 píxeles y como máximo 10 000 x 10 000 píxeles. Los archivos PDF no tienen un límite de tamaño.
El alto mínimo del texto que se va a extraer es de 12 píxeles para una imagen de 1024 x 768, que corresponde a aproximadamente texto de fuente de 8 puntos a 150 PPP.

Nota:

No es necesario recortar una imagen para las líneas de texto. Envíe toda la imagen a Read API y reconozca todos los textos.

Privacidad y seguridad de los datos de OCR

Al igual que sucede con todas las instancias de servicios de Azure AI, los desarrolladores que usan el servicio Visión de Azure AI deben estar al tanto de las directivas de Microsoft sobre los datos de clientes. Para más información, consulte la página de servicios de Azure AI en Microsoft Trust Center.

Pasos siguientes

En el caso de OCR para imágenes generales (que no son de documentos), pruebe el Inicio rápido de la API de REST para el análisis de imágenes de Visión de Azure AI 4.0 versión preliminar.
El OCR para documentos PDF, Office, HTML e imágenes de documentos, comienza con Lectura de Document Intelligence.
¿Busca la versión de disponibilidad general anterior? Consulte las guías de inicio rápido del SDK o de la API de REST de Visión de Azure AI 3.2 con disponibilidad general.

Compartir vía

OCR: reconocimiento óptico de caracteres

Motor de OCR

Ediciones de OCR (Read)

Uso de OCR

Idiomas compatibles con OCR

Características comunes de OCR

Uso de API de Cloud de OCR o implementación local

Requisitos de entrada

Privacidad y seguridad de los datos de OCR

Pasos siguientes

Comentarios

Recursos adicionales

Compartir vía

OCR: reconocimiento óptico de caracteres

Motor de OCR

Ediciones de OCR (Read)

¿Cómo se relaciona OCR con el procesamiento inteligente de documentos (IDP)?

Uso de OCR

Idiomas compatibles con OCR

Características comunes de OCR

Uso de API de Cloud de OCR o implementación local

Requisitos de entrada

Privacidad y seguridad de los datos de OCR

Pasos siguientes

Comentarios

Recursos adicionales