Introducción a la herramienta de etiquetado de ejemplo de Form Recognizer

Este artículo se aplica a:Form Recognizer v2.1 checkmarkForm Recognizer v2.1.

Sugerencia

  • Para obtener una experiencia mejorada y una calidad avanzada del modelo, pruebe Form Recognizer Studio v3.0 .
  • La versión 3.0 de Studio admite cualquier modelo entrenado con datos etiquetados de la versión 2.1.
  • Puede consultar la guía de migración de API para obtener información detallada sobre la migración de la versión 2.1 a la 3.0.
  • Consulte nuestras guías de inicio rápido sobre la API de REST o C#, Java, JavaScript o el SDK de Python para comenzar a trabajar con la versión v3.0.

La herramienta de etiquetado de ejemplo de Form Recognizer es una herramienta de código abierto que le permite probar las características más recientes de Azure Form Recognizer y los servicios de reconocimiento óptico de caracteres (OCR):

Prerrequisitos

Necesitará cumplir los siguientes requisitos para empezar:

  • Una suscripción a Azure: puede crear una cuenta gratuita

  • Un recurso de Cognitive Services o Form Recognizer. Una vez que tenga la suscripción de Azure, cree un recurso de Form Recognizer de servicio único, o de varios servicios en Azure Portal para obtener la clave y el punto de conexión. Puede usar el plan de tarifa gratis (F0) para probar el servicio y actualizarlo más adelante a un plan de pago para producción.

    Sugerencia

    Cree un recurso de Cognitive Services si tiene previsto acceder a varios servicios de Cognitive Services en un único punto de conexión o clave. Para acceder únicamente a Form Recognizer, cree un recurso de Form Recognizer. Tenga en cuenta que necesitará un recurso de servicio único si tiene previsto usar la autenticación de Azure Active Directory.

Creación de un recurso de Form Recognizer

Vaya a Azure Portal y cree un nuevo recurso de Form Recognizer . En el panel Crear, proporcione la siguiente información:

Detalles del proyecto Descripción
Suscripción Seleccione la suscripción de Azure a la que se le ha concedido acceso.
Grupos de recursos El grupo de recursos de Azure que contiene el recurso. Puede crear un nuevo grupo o agregarlo a uno ya existente.
Región Ubicación de la instancia de Cognitive Services. Las diferentes ubicaciones pueden crear latencias, pero no tienen ningún impacto en la disponibilidad del tiempo de ejecución del recurso.
Nombre Un nombre descriptivo para su recurso. Se recomienda usar un nombre descriptivo, como MyNameFormRecognizer.
Plan de tarifa El costo del recurso depende el plan de tarifa elegido y del uso. Para obtener más información, consulte los detalles de los precios.
Revisar y crear Seleccione el botón Revisar y crear para implementar este recurso en Azure Portal.

Recuperación de la clave y el punto de conexión

Cuando el recurso de Form Recognizer termine la implementación, búsquelo y selecciónelo en la lista Todos los recursos del portal. Encontrará la clave y el punto de conexión en la página Key and Endpoint (Clave y punto de conexión) del recurso, en Administración de recursos. Guarde ambos en una ubicación temporal antes de continuar.

Captura de pantalla: claves y ubicación del punto de conexión en Azure Portal.

Análisis mediante un modelo precompilado

Form Recognizer ofrece varios modelos precompilados entre los que elegir. Cada modelo tiene su propio conjunto de campos admitidos. El modelo que se va a usar para la operación de análisis depende del tipo de documento que se va a analizar. Estos son los modelos precompilados que actualmente admite el servicio Form Recognizer:

  • Factura: extrae texto, marcas de selección, tablas, pares clave-valor e información importante de las facturas.
  • Recibo: extrae texto e información clave de los recibos.
  • Documento de identificación: extrae texto e información clave de permisos de conducir y pasaportes internacionales.
  • Tarjeta de presentación: extrae texto e información clave de las tarjetas de presentación.
  1. Vaya a Form Recognizer Sample Tool (Herramienta de ejemplo de Form Recognizer).

  2. En la página principal de la herramienta de ejemplo, seleccione el icono Use prebuilt model to get data (Usar un modelo precompilado para obtener datos).

    Captura de pantalla de la operación de análisis de resultados del modelo de diseño.

  3. Seleccione el Tipo de formulario que quiere analizar en el menú desplegable.

  4. Elija una dirección URL para el archivo que quiere analizar entre las opciones siguientes:

  5. En el campo Origen, seleccione URL en el menú desplegable, pegue la dirección URL seleccionada y seleccione el botón Capturar.

    Captura de pantalla del menú desplegable de ubicación del origen.

  6. En el campo Form recognizer service endpoint (Punto de conexión de servicio de Form Recognizer) pegue el punto de conexión que obtuvo con la suscripción de Form Recognizer.

  7. En el campo Clave, pegue la clave que obtuvo del recurso de Form Recognizer.

    Captura de pantalla del menú desplegable Seleccionar tipo de formulario.

  8. Seleccione Run analysis (Ejecutar análisis). La herramienta de etiquetado de ejemplo de Form Recognizer llamará a la API de análisis precompilado y analizará el documento.

  9. Vea los resultados: vea los pares clave-valor extraídos, los elementos de línea, el texto resaltado extraído y las tablas detectadas.

    Resultados de análisis del modelo de factura de Form Recognizer

  10. Descargue el archivo de salida JSON para ver los resultados detallados.

    • El nodo "readResults" contiene cada línea de texto con su posición de cuadro de límite correspondiente en la página.
    • El nodo "selectionMarks" muestra todas las marcas de selección (casilla, botón de opción) y si su estado es "seleccionado" o "no seleccionado".
    • En la sección "pageResults" se incluyen las tablas extraídas. Para cada tabla, se extraen el texto, el índice de filas y columnas, la expansión de filas y columnas, el rectángulo de selección, etc.
    • El campo "documentResults" contiene información de pares clave-valor y de elementos de línea para las partes más importantes del documento.

Análisis de diseño

La API Layout de Azure Form Recognizer extrae texto, tablas, marcas de selección e información de estructura de documentos (PDF, TIFF) e imágenes (JPG, PNG, BMP).

  1. Vaya a Form Recognizer Sample Tool (Herramienta de ejemplo de Form Recognizer).

  2. En la página principal de la herramienta de ejemplo, seleccione Use layout to get text, tables and selection marks (Usar el diseño para obtener texto, tablas y marcas de selección).

    Configuración de conexión para la herramienta Form Recognizer de diseño.

  3. En el campo Form recognizer service endpoint (Punto de conexión de servicio de Form Recognizer) pegue el punto de conexión que obtuvo con la suscripción de Form Recognizer.

  4. En el campo Clave, pegue la clave que obtuvo del recurso de Form Recognizer.

  5. En el campo Origen, seleccione URL en el menú desplegable, pegue la siguiente dirección URL https://raw.githubusercontent.com/Azure-Samples/cognitive-services-REST-api-samples/master/curl/form-recognizer/layout-page-001.jpg y seleccione el botón Capturar.

  6. Seleccione Run Layout (Ejecutar la API Layout). La herramienta de etiquetado de ejemplo de Form Recognizer llamará a la API Analyze Layout y analizará el documento.

    Captura de pantalla: menú desplegable Diseño.

  7. Vea los resultados: vea el texto resaltado que se ha extraído, así como las marcas de selección y las tablas detectadas.

    Configuración de conexión para la herramienta Form Recognizer.

  8. Descargue el archivo de salida JSON para ver los resultados detallados del diseño.

    • El nodo readResults contiene cada línea de texto con su correspondiente posición de cuadro de límite en la página.
    • El nodo selectionMarks muestra todas las marcas de selección (casilla, botón de opción) y si su estado es selected o unselected.
    • En la sección pageResults se incluyen las tablas extraídas. Para cada tabla, se extraen el texto, el índice de filas y columnas, la expansión de filas y columnas, el rectángulo de selección, etc.

Entrenar un modelo de formulario personalizado

Entrene un modelo personalizado para analizar y extraer datos de formularios y documentos específicos de la empresa. La API es un programa de aprendizaje automático entrenado para reconocer campos de formulario dentro del contenido distintivo y extraer pares clave-valor y datos de tablas. Necesitará al menos cinco ejemplos del mismo tipo de formulario para empezar y el modelo personalizado se puede entrenar con o sin conjuntos de datos etiquetados.

Requisitos previos para entrenar un modelo de formulario personalizado

  • Un contenedor de blobs de Azure Storage que contenga un conjunto de datos de entrenamiento. Asegúrese de que todos los documentos de entrenamiento tienen el mismo formato. Si tiene formularios en varios formatos, organícelos en subcarpetas basadas en un formato común. Para este proyecto puede usar nuestro conjunto de datos de ejemplo.

  • Si no sabe cómo crear una cuenta de almacenamiento de Azure con un contenedor, siga el inicio rápido de Azure Storage para Azure Portal.

  • Configuración de CORS

    CORS (uso compartido de recursos entre orígenes) debe configurarse en la cuenta de almacenamiento de Azure para que sea accesible desde Form Recognizer Studio. Para configurar CORS en Azure Portal, necesitará acceso a la pestaña CORS de su cuenta de almacenamiento.

    1. Seleccione la pestaña CORS de la cuenta de almacenamiento.

      Captura de pantalla del menú de configuración de CORS en Azure Portal.

    2. Empiece por crear una nueva entrada de CORS en Blob service.

    3. Establezca Orígenes permitidos en .

      Captura de pantalla que muestra la configuración de CORS para una cuenta de almacenamiento.

      Sugerencia

      También puede utilizar el carácter comodín (*), en lugar de un dominio específico, para permitir que todos los dominios de origen hagan solicitudes a través de CORS.

    4. Seleccione las ocho opciones disponibles de Métodos permitidos.

    5. Apruebe todos los encabezados permitidos y los encabezados expuestos; para ello, escriba * en cada campo.

    6. Establezca la antigüedad máxima en 120 segundos o cualquier valor aceptable.

    7. Seleccione el botón Guardar de la parte superior de la página para guardar los cambios.

Uso de la herramienta de etiquetado de ejemplo

  1. Vaya a Form Recognizer Sample Tool (Herramienta de ejemplo de Form Recognizer).

  2. En la página principal de la herramienta de ejemplo, seleccione Use custom form to train a model with labels and get key value pairs (Usar un formulario personalizado para entrenar un modelo con etiquetas y obtener pares clave-valor).

    Entrene un modelo personalizado.

  3. Selección de Nuevo proyecto

    Captura de pantalla: seleccione un nuevo símbolo del sistema del proyecto.

Creación de un nuevo proyecto

Configure los campos de Configuración del proyecto con los valores siguientes:

  1. Nombre para mostrar. Dé un nombre al proyecto.

  2. Token de seguridad. Cada proyecto generará automáticamente un token de seguridad que se puede usar para cifrar o descifrar los valores de configuración confidenciales del proyecto. Puede buscar los tokens de seguridad en la configuración de la aplicación. Para ello, seleccione el icono de engranaje situado en la esquina inferior de la barra de navegación izquierda.

  3. Conexión de origen. La herramienta de etiquetado de ejemplo se conecta a un origen (los formularios originales que cargó) y a un destino (las etiquetas creadas y los datos de salida). Las conexiones se pueden configurar y compartir entre proyectos. Usan un modelo extensible de proveedores, por lo que puede agregar fácilmente nuevos proveedores de origen y destino.

    • Cree una conexión y seleccione el botón Agregar conexión. Rellene los campos con los siguientes valores:
    • Nombre para mostrar. Asigne un nombre a la conexión.
    • Descripción. Agregue una breve descripción.
    • Dirección URL de SAS. Pegue la dirección URL de la firma de acceso compartido (SAS) del contenedor de Azure Blob Storage.
    • Para recuperar la dirección URL de la firma de acceso compartido para los datos de entrenamiento del modelo personalizado, vaya al recurso de almacenamiento en Azure Portal y seleccione la pestaña Explorador de Storage. Vaya al contenedor, haga clic con el botón derecho y seleccione Obtener firma de acceso compartido. Es importante obtener la firma de acceso compartido para el contenedor, no para la propia cuenta de almacenamiento. Asegúrese de que estén marcados los permisos de lectura, escritura, eliminación y enumeración, y seleccione Crear. A continuación, copie el valor de la sección URL en una ubicación temporal. Debe tener el formato https://<storage account>.blob.core.windows.net/<container name>?<SAS value>.

      Ubicación de SAS.

  4. Ruta de acceso de la carpeta (opcional). Si los formularios de origen se encuentran dentro de una carpeta del contenedor de blobs, especifique el nombre de la carpeta.

  5. URI de servicio del servicio Form Recognizer: la dirección URL del punto de conexión de Form Recognizer.

  6. Clave. La clave de Form Recognizer.

  7. Versión de API. Mantenga el valor v2.1 (valor predeterminado).

  8. Descripción (opcional). Describa el proyecto.

    Configuración de conexión

Etiquetado de formularios

Página del nuevo proyecto

Al crear o abrir un proyecto, se abrirá la ventana principal del editor de etiquetas. El editor de etiquetas consta de tres partes:

  • Un panel de vista previa de tamaño variable que contiene una lista desplazable de formularios de la conexión de origen.
  • El panel principal del editor que permite aplicar etiquetas.
  • El panel del editor de etiquetas que permite a los usuarios modificar, bloquear, reordenar y eliminar etiquetas.
Identificación de textos y tablas

Seleccione el elemento Ejecutar Diseño en todos los archivos, ubicado en el panel izquierdo, para obtener la información de diseño del texto y las tablas de cada documento. La herramienta de etiquetado dibujará los cuadros de límite alrededor de cada elemento de texto.

También mostrará las tablas que se hayan extraído automáticamente. Seleccione el icono de tabla o cuadrícula en la parte izquierda del documento para ver la tabla extraída. Como el contenido de la tabla se extrae automáticamente, este no se etiquetará, sino que se basará en la extracción automatizada.

Visualización de tablas mediante la herramienta de etiquetado de ejemplo.

Aplicación de etiquetas a texto

A continuación, creará etiquetas y las aplicará a los elementos de texto que desea que analice el modelo. Tenga en cuenta que el conjunto de datos de etiquetas de ejemplo ya incluye campos etiquetados. Ahora, agregaremos otro campo.

Use el panel del editor de etiquetas para crear una etiqueta que quiera identificar:

  1. Seleccione el signo más + para crear una etiqueta.

  2. Escriba el nombre de la etiqueta "Total".

  3. Seleccione ENTRAR para guardar la etiqueta.

  4. En el editor principal, seleccione el valor total en los elementos de texto resaltados.

  5. Seleccione la etiqueta Total que va a aplicar al valor o presione la tecla correspondiente del teclado. Las teclas numéricas se asignan como teclas de acceso rápido para las diez primeras etiquetas. Puede volver a ordenar las etiquetas con los iconos de flecha arriba y abajo del panel del editor de etiquetas. Siga estos pasos para etiquetar los cinco formularios del conjunto de datos de ejemplo:

    Sugerencia

    Tenga en cuenta las siguientes sugerencias cuando vaya a etiquetar los formularios:

    • Solo se puede aplicar una etiqueta a cada elemento de texto seleccionado.

    • Cada etiqueta solo se puede aplicar una vez por página. Si un valor aparece varias veces en el mismo formulario, cree etiquetas diferentes para cada instancia. Por ejemplo, "factura n.º 1", "factura n.º 2", etc.

    • Las etiquetas no pueden abarcar varias páginas.

    • Etiquete los valores tal como aparecen en el formulario; no intente dividir un valor en dos partes con dos etiquetas diferentes. Por ejemplo, un campo de dirección debe etiquetarse con una sola etiqueta incluso si abarca varias líneas.

    • No incluya claves en los campos etiquetados, solo los valores.

    • Los datos de la tabla deben detectarse automáticamente y estarán disponibles en el archivo JSON de salida final, en la sección “pageResults”. Sin embargo, si el modelo no detecta todos los datos de la tabla, también puede etiquetar y entrenar un modelo para detectar tablas. Consulte Entrenamiento de un modelo personalizado | Etiquetado de los formularios

    • Use los botones situados a la derecha de + para buscar, reordenar y eliminar las etiquetas, así como cambiarles el nombre.

    • Para quitar una etiqueta aplicada sin eliminar la etiqueta en sí, seleccione el rectángulo etiquetado en la vista de documento y presione la tecla Supr.

Etiquete los ejemplos.

Entrenamiento de un modelo personalizado

Elija el icono Train (Entrenar) en el panel izquierdo para abrir la página de entrenamiento. A continuación, seleccione el botón Train (Entrenar) para empezar a entrenar el modelo. Una vez completado el proceso de entrenamiento, verá la siguiente información:

  • Id. del modelo: el identificador del modelo que se ha creado y entrenado. Cada llamada de entrenamiento crea un nuevo modelo con su propio identificador. Copie esta cadena en una ubicación segura; la necesitará si desea realizar llamadas de predicción mediante la API REST o la biblioteca cliente.

  • Precisión media: el promedio de precisión del modelo. Puede mejorar la precisión del modelo si etiqueta más formularios y vuelve a realizar el entrenamiento para crear otro modelo. Se recomienda empezar por etiquetar cinco formularios y realizar un análisis y pruebas de los resultados; después, si es necesario, agregar más formularios.

  • La lista de etiquetas y la precisión estimada por etiqueta. Para más información, veaInterpretación y mejora de la precisión y la confianza.

    Herramienta de vista de entrenamiento.

Análisis de un formulario personalizado

  1. Seleccione el icono Analizar en la barra de navegación para probar el modelo.

  2. Seleccione el archivo local de origen y vaya a un archivo para seleccionar del conjunto de datos de ejemplo que descomprimió en la carpeta de prueba.

  3. Elija el botón Ejecutar análisis para obtener las predicciones de pares clave-valor, texto y tablas del formulario. La herramienta aplicará etiquetas en los cuadros de límite e informará de la confianza de cada etiqueta.

    Vista de entrenamiento.

Eso es todo. Ha aprendido a usar la herramienta de ejemplo Form Recognizer para modelos precompilados, de diseño y personalizados de Form Recognizer. También ha aprendido a analizar un formulario personalizado con datos etiquetados manualmente.

Pasos siguientes