Obtención de información sobre el reconocimiento óptico de caracteres (OCR)

Artículo
07/16/2024

Advertencia

En el último año, Video Indexer (VI) de Azure AI anunció la eliminación de su dependencia en Azure Media Services (AMS) debido a su retirada. Se anunciaron ajustes y cambios de características y se proporcionó una guía de migración.

La fecha límite para completar la migración fue el 30 de junio de 2024. VI ha ampliado la fecha límite de actualización y migración para que pueda actualizar su cuenta VI y participar en la migración de recursos de AMS VI hasta el 15 de julio de 2024. Para usar la migración de recursos de AMS VI, también debe ampliar la cuenta de AMS a julio. Vaya a la cuenta de AMS en Azure Portal y seleccione Haga clic aquí para ampliar.

Sin embargo, después del 30 de junio, si no ha actualizado su cuenta VI, no podrá indexar nuevos vídeos ni podrá reproducir vídeos que no se hayan migrado. Si actualiza la cuenta después del 30 de junio, puede reanudar la indexación inmediatamente, pero no podrá reproducir vídeos indexados antes de la actualización de la cuenta hasta que se migren a través de la migración de AMS VI.

Reconocimiento óptico de caracteres (OCR)

OCR extrae texto de imágenes como imágenes, señales de calle y productos en archivos multimedia para crear conclusiones.

OCR extrae información de texto impreso y manuscrito en más de 50 idiomas, incluida una imagen con texto en varios idiomas. Para obtener más información, consulte Lenguajes compatibles con OCR.

Para obtener más información sobre OCR, consulte Tecnología OCR.

Casos de uso del reconocimiento óptico de caracteres

Búsqueda en profundidad de imágenes multimedia con carteles, nombres de calle o placas de licencia de automóviles, por ejemplo, en el cumplimiento de la ley.
Extraer texto de imágenes en archivos multimedia y traducirlo a varios idiomas en etiquetas para accesibilidad, por ejemplo en medios o entretenimiento.
Detectar nombres de marca en imágenes y etiquetarlos con fines de traducción, por ejemplo, en publicidad y personalización de marca.
Extraer texto en imágenes que, a continuación, se etiquetan y clasifican automáticamente para accesibilidad y uso futuro, por ejemplo, para generar contenido en una agencia de noticias.
Extraer texto en advertencias en instrucciones en línea y, a continuación, traducir el texto para cumplir con los estándares locales, por ejemplo, instrucciones de aprendizaje electrónico para el uso de equipos.

Visualización del JSON de información con el portal web

Una vez que haya cargado e indexado un vídeo, la información está disponible en formato JSON para su descarga mediante el portal web.

Seleccione la pestaña Biblioteca .
Seleccione los medios con los que desea trabajar.
Seleccione Descargar y Insights (JSON). El archivo JSON se abre en una nueva pestaña del explorador.
Busque el par de claves descrito en la respuesta de ejemplo.

Uso de la API

Use la solicitud Obtener índice de vídeo. Se recomienda pasar &includeSummarizedInsights=false.
Busque el par de claves descrito en la respuesta de ejemplo.

    "ocr": [
        {
          "id": 1,
          "text": "2017 Ruler",
          "confidence": 0.4365,
          "left": 901,
          "top": 3,
          "width": 80,
          "height": 23,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:45.5",
              "adjustedEnd": "0:00:46",
              "start": "0:00:45.5",
              "end": "0:00:46"
            },
            {
              "adjustedStart": "0:00:55",
              "adjustedEnd": "0:00:55.5",
              "start": "0:00:55",
              "end": "0:00:55.5"
            }
          ]
        },
        {
          "id": 2,
          "text": "2017 Ruler postppu - PowerPoint",
          "confidence": 0.4712,
          "left": 899,
          "top": 4,
          "width": 262,
          "height": 48,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:44.5",
              "adjustedEnd": "0:00:45",
              "start": "0:00:44.5",
              "end": "0:00:45"
            }
          ]
        }

Durante el procedimiento OCR, las imágenes de texto de un archivo multimedia se procesan de la siguiente manera:

Componente	Definición
Archivo de origen	El usuario carga el archivo de origen para la indexación.
Modelo de lectura	Las imágenes se detectan en el archivo multimedia y, a continuación, los servicios de Azure AI extraen y analizan el texto.
Obtención del modelo de resultados de lectura	La salida del texto extraído se muestra en un archivo JSON.
Valor de confianza	El nivel de confianza estimado de cada palabra se calcula como un intervalo de 0 a 1. La puntuación de confianza representa la certeza en la precisión del resultado. Por ejemplo, una certeza del 82 % se representará como una puntuación de 0,82.

Compartir a través de

Obtención de información sobre el reconocimiento óptico de caracteres (OCR)

Reconocimiento óptico de caracteres (OCR)

Casos de uso del reconocimiento óptico de caracteres

Visualización del JSON de información con el portal web

Uso de la API

Nota de transparencia

Comentarios

Comentarios

Recursos adicionales