El reconocimiento óptico de caracteres o OCR también se conoce como reconocimiento de texto o extracción de texto. Las técnicas de OCR basadas en el aprendizaje automático permiten extraer texto impreso o manuscrito de imágenes, como carteles, señales de tráfico y etiquetas de productos, así como de documentos como artículos, informes, formularios y facturas. El texto se extrae normalmente como palabras, líneas de texto y párrafos o bloques de texto, lo que permite el acceso a la versión digital del texto escaneado. Esto elimina o reduce significativamente la necesidad de entrada manual de datos.
Motor de OCR
El motor lectura de OCR de Microsoft se compone de múltiples modelos avanzados basados en el aprendizaje automático que admiten idiomas de todo el mundo. Puede extraer texto impreso y manuscrito, incluidos idiomas y estilos de escritura mixtos. Read está disponible como servicio en la nube y contenedor local para la flexibilidad de implementación. También está disponible como API sincrónica para escenarios únicos, sin documentos y solo de imágenes con mejoras de rendimiento que facilitan la implementación de experiencias de usuario asistidas por OCR.
Optimizada para imágenes generales, no provenientes de documentos, con una API sincrónica con rendimiento mejorado que facilita la inserción de experiencias con tecnología de OCR en los escenarios de experiencia de usuario.
Documentos: Digitales y digitalizados, incluidas las imágenes
Optimizado para documentos digitales y que contienen gran cantidad de texto digitalizado con una API asincrónica para ayudar a automatizar el procesamiento inteligente de documentos a escala.
Acerca de la lectura de Visión de Azure AI v3.2 de disponibilidad general
¿Cómo se relaciona OCR con el procesamiento inteligente de documentos (IDP)?
El procesamiento inteligente de documentos (IDP) usa OCR como tecnología fundamental para además extraer la estructura, las relaciones, los valores clave, las entidades y otras conclusiones centradas en el documento con un servicio avanzado de inteligencia artificial basado en aprendizaje automático, como Document Intelligence. Document Intelligence incluye una versión optimizada para documentos de tipo Lectura como motor de OCR mientras delega a otros modelos la tarea de obtener información de nivel superior. Si va a extraer texto de documentos digitales y escaneados, use el Lectura de OCR para Document Intelligence.
Uso de OCR
Pruebe OCR mediante Vision Studio. A continuación, siga uno de los enlaces a la edición de lectura que mejor se adapte a sus necesidades.
Ambas versiones de Lectura disponibles en Visión de Azure AI admiten varios idiomas para texto impreso y manuscrito. OCR para texto impreso tiene compatibilidad con inglés, francés, alemán, italiano, portugués, español, chino, japonés, coreano, ruso, árabe, hindi y otros idiomas internacionales que usan scripts latinos, cirílicos, árabes y devanagari. El OCR de texto manuscrito tiene compatibilidad con inglés, chino simplificado, francés, alemán, italiano, japonés, coreano, portugués y español.
El modelo de Lectura de OCR está disponible en Visión de Azure AI y Document Intelligence con funcionalidades de línea base comunes, mientras se optimiza para sus respectivos escenarios. En la lista siguiente se resumen las características comunes:
Extracción de texto impreso y manuscrito en idiomas admitidos
Páginas, líneas de texto y palabras con puntuaciones de ubicación y confianza
Compatibilidad con idiomas mixtos, modo mixto (impresión y escritura a mano)
Disponible como contenedor sin distribución de Docker para la implementación local
Uso de API de Cloud de OCR o implementación local
Las API de Cloud son la opción preferida para la mayoría de los clientes debido a su facilidad de integración y su inmediata productividad. Azure y el servicio Visión de Azure AI controlan las necesidades de escalado, rendimiento, seguridad de los datos y cumplimiento, lo que le permite centrarse en satisfacer las necesidades de sus clientes.
En las implementaciones locales, el contenedor Docker de Lectura le permite implementar las funcionalidades del OCR de Visión de Azure AI v3.2 con disponibilidad general en su entorno local. Los contenedores son excelentes para requisitos específicos de control de datos y seguridad.
Requisitos de entrada
La API de lectura usa las imágenes y los documentos como entrada. Las imágenes y documentos deben cumplir los siguientes requisitos:
Los formatos de archivo admitidos son JPEG, PNG, BMP, PDF y TIFF.
En el caso de los archivos PDF y TIFF, se procesan hasta 2000 páginas (solo las primeras dos páginas en el nivel Gratis).
El tamaño de archivo de las imágenes debe ser inferior a 500 MB (4 MB para el nivel libre) con dimensiones como mínimo de 50 x 50 píxeles y como máximo 10 000 x 10 000 píxeles. Los archivos PDF no tienen un límite de tamaño.
El alto mínimo del texto que se va a extraer es de 12 píxeles para una imagen de 1024 x 768, que corresponde a aproximadamente texto de fuente de 8 puntos a 150 PPP.
Nota
No es necesario recortar una imagen para las líneas de texto. Envíe toda la imagen a Read API y reconozca todos los textos.
Privacidad y seguridad de los datos de OCR
Al igual que sucede con todas las instancias de servicios de Azure AI, los desarrolladores que usan el servicio Visión de Azure AI deben estar al tanto de las directivas de Microsoft sobre los datos de clientes. Para más información, consulte la página de servicios de Azure AI en Microsoft Trust Center.