Creación de un conjunto de datos de aprendizaje para un modelo personalizado

Cuando se usa el modelo personalizado de Form Recognizer, puede proporcionar sus propios datos de entrenamiento a la operación Train Custom Model (Entrenar modelo personalizado), para que el modelo pueda entrenar según los formularios específicos del sector. Siga esta guía para obtener información sobre cómo recopilar y preparar los datos para entrenar el modelo de forma eficaz.

Necesita al menos cinco formularios rellenados del mismo tipo.

Si quiere usar datos de entrenamiento etiquetados manualmente, tiene que empezar con al menos cinco formularios del mismo tipo. Podrá seguir usando formularios sin etiquetar además del conjunto de datos requerido.

Requisitos de entrada del modelo personalizado

En primer lugar, asegúrese de que el conjunto de datos de aprendizaje también cumpla con los requisitos de entrada para Form Recognizer.

  • Para obtener unos resultados óptimos, proporcione una foto clara o una digitalización de alta calidad por documento.

  • Formatos de archivos admitidos:

    Modelo PDF Imagen:
    JPEG/JPG, PNG, BMP y TIFF
    Microsoft Office:
    Word (DOCX), Excel (XLS), PowerPoint (PPT), y HTML
    Leer Versión de API REST
    2022/06/30-preview
    Layout
    Documento general
    Creada previamente
    Personalizado

    ✱ Los archivos de Microsoft Office no se admiten actualmente para otros modelos o versiones.

  • En el caso de PDF y TIFF, se pueden procesar hasta 2000 páginas (con una suscripción de nivel gratuito, solo se procesan las dos primeras páginas).

  • El tamaño del archivo para analizar documentos debe ser inferior a 500 MB para el nivel de pago (S0) y 4 MB para el nivel gratuito (F0).

  • Las imágenes deben tener unas dimensiones de entre 50 x 50 píxeles y 10 000 x 10 000 píxeles.

  • Los archivos PDF tienen unas dimensiones de hasta 17 x 17 pulgadas, lo que corresponde a los tamaños de papel Legal o A3, o más pequeños.

  • Si los archivos PDF están bloqueados con contraseña, debe desbloquearlos antes de enviarlos.

  • La altura mínima del texto que se va a extraer es de 12 píxeles para una imagen de 1024 x 768 píxeles. Esta dimensión corresponde a aproximadamente un texto de 8 puntos a 150 puntos por pulgada (PPP).

  • Para el entrenamiento de modelos personalizados, el número máximo de páginas para los datos de entrenamiento es 500 para el modelo de plantilla personalizada y 50 000 para el modelo neuronal personalizado.

  • Para el entrenamiento de modelos personalizados, el tamaño total de los datos de entrenamiento es de 50 MB para el modelo de plantilla y 1 G-MB para el modelo neuronal.

Sugerencias sobre los datos de aprendizaje

Siga estas sugerencias adicionales para optimizar aún más el conjunto de datos para el entrenamiento.

  • Si es posible, use documentos PDF de texto en lugar de documentos basados en imágenes. Los archivos PDF digitalizados se tratan como imágenes.
  • En el caso de los formularios rellenados, use ejemplos en los que estén todos los campos rellenados.
  • Use formularios con valores distintos en cada campo.
  • Si las imágenes de los formularios son de menor calidad, use un conjunto de datos más grande (con entre 10 y 15 imágenes, por ejemplo).

Carga de los datos de aprendizaje

Una vez que recopila el conjunto de documentos de formularios que usará para el entrenamiento, deberá cargarlo a un contenedor de Azure Blob Storage. Si no sabe cómo crear una cuenta de almacenamiento de Azure con un contenedor, siga el inicio rápido de Azure Storage para Azure Portal. Use el nivel de rendimiento estándar.

Si desea usar datos etiquetados manualmente, también tendrá que cargar los archivos .labels.json y .ocr.json correspondientes a los documentos de entrenamiento. Puede usar la herramienta de etiquetado de ejemplo (o su propia interfaz de usuario) para generar estos archivos.

Organización de los datos en subcarpetas (opcional)

De manera predeterminada, la API de Train Custom Model (Entrenar modelo personalizado) solo usará documentos de formularios que se encuentren en la raíz del contenedor de almacenamiento. Sin embargo, puede realizar el entrenamiento con los datos de las subcarpetas si lo especifica así en la llamada API. Por lo general, el cuerpo de la llamada Train Custom Model (Entrenar modelo personalizado) tiene el formato siguiente, donde <SAS URL> es la dirección URL de la firma de acceso compartido del contenedor:

{
  "source":"<SAS URL>"
}

Si agrega el contenido siguiente al cuerpo de la solicitud, la API se entrenará con los documentos ubicados en las subcarpetas. El campo "prefix" es opcional y limitará el conjunto de datos de aprendizaje a los archivos cuyas rutas de acceso empiezan con la cadena determinada. Por lo tanto, un valor de "Test", por ejemplo, hará que la API examine solo los archivos o las carpetas que empiecen con la palabra "Test" (Prueba).

{
  "source": "<SAS URL>",
  "sourceFilter": {
    "prefix": "<prefix string>",
    "includeSubFolders": true
  },
  "useLabelFile": false
}

Pasos siguientes

Ahora que aprendió a crear un conjunto de datos de aprendizaje, siga un inicio rápido para entrenar a un modelo personalizado de Form Recognizer y empezar a usarlo en los formularios.

Consulte también