Modelo neuronal personalizado de Documento de inteligencia
Importante
- Las versiones preliminares públicas de Documento de inteligencia proporcionan acceso anticipado a las características que están en desarrollo activo. Antes de la disponibilidad general (GA), las características, los enfoques y los procesos podrían cambiar en función de los comentarios de los usuarios.
- La versión preliminar pública de las bibliotecas cliente de Documento de inteligencia tiene como valor predeterminado la versión de la API de REST 2024-07-31-preview.
- La versión preliminar pública 2024-07-31-preview solo está disponible en las siguientes regiones de Azure. Tenga en cuenta que el modelo generativo personalizado (extracción de campos del documento) en AI Studio solo está disponible en la región Centro-norte de EE. UU.:
- Este de EE. UU.
- Oeste de EE. UU. 2
- Oeste de Europa
- Centro-Norte de EE. UU
Este contenido se aplica a: v4.0 (versión preliminar) | Versiones anteriores: v3.1 (GA) v3.0 (GA)
Este contenido se aplica a: v3.1 (GA) | Versión más reciente: v4.0 (versión preliminar) | Versiones anteriores: v3.0
Este contenido se aplica a: v3.0 (GA) | Versiones más recientes: v4.0 (versión preliminar) v3.1
Los modelos de documentos neuronales personalizados o modelos neuronales son un tipo de modelo de aprendizaje profundo que combina características de diseño e idioma para extraer con precisión campos etiquetados de documentos. El modelo neuronal personalizado base se entrena en varios tipos de documentos que lo hacen adecuado para entrenarse para extraer campos de documentos estructurados y semiestructurados. Los modelos neuronales personalizados están disponibles en los modelos v3.0 y versiones posteriores La tabla siguiente enumera los tipos de documento comunes para cada categoría:
Documentos | Ejemplos |
---|---|
Estructurados | encuestas, cuestionarios |
Semiestructurados | facturas, pedidos de compra |
Los modelos neuronales personalizados comparten el mismo formato y la misma estrategia de etiquetado que los modelos de plantilla personalizados. Actualmente, los modelos neuronales personalizados solo admiten un subconjunto de los tipos de campo admitidos por los modelos de plantilla personalizados.
Funcionalidades del modelo
Importante
A partir de la versión de la API 2024-02-29-preview
los modelos neuronales personalizados agregan compatibilidad con los campos superpuestos y la confianza de las celdas de tabla.
Los modelos neuronales personalizados son compatibles actualmente con pares clave-valor y marcas de selección y campos estructurados (tablas).
Campos de formulario | Marcas de selección | Campos tabulares | Firma | Etiquetado de regiones | Campos superpuestos |
---|---|---|---|---|---|
Compatible | Admitido | Compatible | No compatible | Compatible 1 | Compatible 2 |
1 Las etiquetas de región de los modelos neuronales personalizados usan los resultados de la API de diseño para la región especificada. Esta característica es diferente de los modelos de plantilla en los que, si no hay ningún valor presente, el texto se genera en el momento del entrenamiento.
2 Los campos superpuestos son compatibles a partir de la versión 2024-02-29-preview
de la API de REST. Los campos superpuestos tienen algunos límites. Para más información, vea campos superpuestos.
Modo de compilación
La operación Build
es compatible con los modelos personalizados de plantilla y neuronal. Las versiones anteriores de la API de REST y las bibliotecas de cliente solo admitía un modo de compilación único que ahora se conoce como laplantilla modo.
Los modelos neuronales admiten documentos que tienen la misma información, pero estructuras de página diferentes. Ejemplos de estos documentos incluyen formularios W2 de Estados Unidos, que comparten la misma información, pero pueden variar en apariencia entre empresas. Para más información, vea Modo de compilación de modelos personalizados.
Campos superpuestos
Con el lanzamiento de versiones de API 2024-02-29-preview
y versiones posteriores, los modelos neuronales personalizados admiten campos superpuestos:
Campos superpuestos
Con el lanzamiento de versiones de API 2024-07-31-preview y versiones posteriores, los modelos neuronales personalizados admitirán campos superpuestos:
Para usar los campos superpuestos, el conjunto de datos debe contener al menos un ejemplo con la superposición esperada. Para etiquetar una superposición, use la etiqueta de región para designar cada uno de los intervalos de contenido (con la superposición) para cada campo. Al etiquetar una superposición con la selección de campos (resaltado de un valor) se produce un error en el estudio, ya que el etiquetado de regiones es la única herramienta de etiquetado compatible para indicar superposiciones de campo. El soporte con superposición incluye:
- Superposición completa. El mismo conjunto de tokens se etiqueta para dos campos diferentes.
- Superposición parcial. Algunos tokens pertenecen a ambos campos, pero hay tokens que solo forman parte de un campo u otro.
Los campos superpuestos tienen algunos límites:
- Cualquier token o palabra solo se puede etiquetar como dos campos.
- Los campos superpuestos de una tabla no pueden abarcar filas de tabla.
- Los campos superpuestos solo se pueden reconocer si al menos un ejemplo del conjunto de datos contiene etiquetas superpuestas para esos campos.
Para usar campos superpuestos, etiquete el conjunto de datos con las superposiciones y entrene el modelo con la versión de la API 2024-02-29-preview
o posterior.
Campos tabulares
Con el lanzamiento de las versiones de la API 2022-06-30-preview y posteriores, los modelos neuronales personalizados son compatibles con los campos tabulares (tablas) para analizar los datos de tablas, filas y celdas con mayor confianza:
- Los modelos entrenados con la versión de API 2022-06-30-preview o posterior aceptarán etiquetas de campo tabulares.
- Los documentos analizados con modelos neuronales personalizados mediante la versión de API 2022-06-30-preview o posterior generarán campos tabulares agregados en las tablas.
- Los resultados se pueden encontrar en la matriz
analyzeResult
del objetodocuments
que se devuelve después de una operación de análisis.
Los campos tabulares admiten tablas entre páginas de forma predeterminada:
- Para etiquetar una tabla que abarca varias páginas, etiquete cada fila de la tabla en las distintas páginas de una sola tabla.
- Como procedimiento recomendado, asegúrese de que el conjunto de datos contiene algunas muestras de las variaciones esperadas. Por ejemplo, incluya ejemplos en los que toda la tabla se encuentra en una sola página y donde las tablas abarcan dos o más páginas.
Los campos tabulares también son útiles al extraer información repetida dentro de un documento que no se reconoce como una tabla. Por ejemplo, una sección repetida de experiencias de trabajo en un currículum se puede etiquetar y extraer como un campo tabular.
Los campos tabulares proporcionan confianza de tabla, fila y celdaa partir de la 2024-02-29-preview
API:
Las tablas fijas o dinámicas agregan soporte de confianza con los siguientes elementos:
- Confianza de la tabla, una medida de la precisión en que se reconoce toda la tabla.
- Confianza de fila, medida de reconocimiento de una fila individual.
- Confianza de las celdas, medida del reconocimiento de una celda individual.
El enfoque recomendado consiste en revisar la precisión de forma descendente a partir de la tabla en primer lugar, seguida de la fila y, a continuación, de la celda. Consulte puntuaciones de confianza y precisión para obtener más información sobre la tabla, la fila y la confianza de las celdas.
Idiomas y configuraciones regionales compatibles
Consulte nuestra página de Compatibilidad de idiomas: modelos personalizados para obtener una lista completa de los idiomas admitidos.
Regiones admitidas
A partir del 18 de octubre de 2022, el entrenamiento del modelo neuronal personalizado de Documento de inteligencia solo estará disponible en las regiones de Azure siguientes, hasta nuevo aviso:
- Este de Australia
- Sur de Brasil
- Centro de Canadá
- Centro de la India
- Centro de EE. UU.
- Este de Asia
- Este de EE. UU.
- Este de EE. UU. 2
- Centro de Francia
- Japón Oriental
- Centro-sur de EE. UU.
- Sudeste de Asia
- Sur de Reino Unido 2
- Oeste de Europa
- Oeste de EE. UU. 2
- US Gov: Arizona
- US Gov - Virginia
Sugerencia
Puede copiar un modelo entrenado en una de las regiones enumeradas en cualquier otra región y usarlo en consecuencia.
Use la API de REST o Estudio de Documento de inteligencia para copiar un modelo en otra región.
Sugerencia
Puede copiar un modelo entrenado en una de las regiones enumeradas en cualquier otra región y usarlo en consecuencia.
Use la API de REST o Estudio de Documento de inteligencia para copiar un modelo en otra región.
Sugerencia
Puede copiar un modelo entrenado en una de las regiones enumeradas en cualquier otra región y usarlo en consecuencia.
Use la API de REST o Estudio de Documento de inteligencia para copiar un modelo en otra región.
Requisitos de entrada
Para obtener unos resultados óptimos, proporcione una foto clara o una digitalización de alta calidad por documento.
Formatos de archivos admitidos:
Modelo PDF Imagen:
jpeg/jpg
,png
,bmp
,tiff
,heif
Microsoft Office:
Word (docx), Excel (xlsx), PowerPoint (pptx) y HTMLLeer ✔ ✔ ✔ Layout ✔ ✔ ✔ (2024-02-29-versión preliminar, 2023-10-31-versión preliminar o posterior) Documento general ✔ ✔ Creada previamente ✔ ✔ Neuronal personalizado ✔ ✔ ✱ Los archivos de Microsoft Office no se admiten actualmente para otros modelos o versiones.
Para PDF y TIFF, se pueden procesar hasta 2000 páginas (con una suscripción de nivel gratis, solo se procesan las dos primeras páginas).
El tamaño de archivo para analizar documentos es de 500 MB para el nivel de pago (S0) y de 4 MB para el nivel gratuito (F0).
Las imágenes deben tener unas dimensiones de entre 50 x 50 píxeles y 10 000 x 10 000 píxeles.
Si los archivos PDF están bloqueados con contraseña, debe desbloquearlos antes de enviarlos.
La altura mínima del texto que se va a extraer es de 12 píxeles para una imagen de 1024 x 768 píxeles. Esta dimensión corresponde a aproximadamente
8
texto de punto a 150 puntos por pulgada.Para el entrenamiento de modelos personalizados, el número máximo de páginas para los datos de entrenamiento es 500 para el modelo de plantilla personalizada y 50 000 para el modelo neuronal personalizado.
Para el entrenamiento de modelos de extracción personalizados, el tamaño total de los datos de entrenamiento es de 50 MB para el modelo de plantilla y 1 G-MB para el modelo neuronal.
Para el modelo de entrenamiento de clasificación personalizada, el tamaño total de los datos de entrenamiento es
1GB
con un máximo de 10 000 páginas.
procedimientos recomendados
Los modelos neuronales personalizados difieren de los modelos de plantilla personalizados de varias maneras diferentes. El modelo de plantilla personalizado se basa en una plantilla visual coherente para extraer los datos etiquetados. Los modelos neuronales personalizados admiten campos estructurados y semiestructurados. Al elegir entre los tipos de modelos, comience con un modelo neuronal y pruebe para determinar si es compatible con sus necesidades funcionales.
- Tratar con variaciones: los modelos neuronales personalizados pueden generalizarse en diferentes formatos de un solo tipo de documento. Como procedimiento recomendado, cree un modelo único para todas las variaciones de un tipo de documento. Agregue al menos cinco ejemplos etiquetados de cada una de las distintas variaciones al conjunto de datos de entrenamiento.
- Nombre de campo: al etiquetar los datos, el etiquetado del campo pertinente para el valor mejora la precisión de los pares clave-valor extraídos. Por ejemplo, para un valor de campo que contiene el identificador de proveedor, considere la posibilidad de asignar al campo el nombre supplier_id. Los nombres de campo deben estar en el idioma del documento.
- Etiquetado de valores contiguos: los tokens de valor o las palabras de un campo deben ser:
- En una secuencia consecutiva en orden de lectura natural, sin intercalar con otros campos
- Estar en una región que no cubra ningún otro campo
- Datos representativos: los valores de los casos de entrenamiento deben ser diversos y representativos. Por ejemplo, si a un campo se le asigna el nombre date, los valores de este campo deben ser una fecha. El valor sintético como una cadena aleatoria puede afectar al rendimiento del modelo.
Limitaciones actuales
- El modelo neuronal personalizado no reconoce valores divididos entre límites de página.
- Los tipos de campo no admitidos neuronales personalizados se omiten si se usa un conjunto de datos etiquetado para modelos de plantilla personalizados para entrenar un modelo neuronal personalizado.
- Los modelos neuronales personalizados están limitados a 20 operaciones de compilación al mes. Abra una solicitud de soporte técnico si necesita aumentar el límite. Para obtener más información, consulte cuotas y los límites del servicio Documento de inteligencia.
Training a model
Los modelos neuronales personalizados están disponibles en los modelos v3.0 y posteriores.
Tipo de documento | API DE REST | SDK | Etiquetado y prueba de modelos |
---|---|---|---|
Documento personalizado | Documento de inteligencia 3.1 | SDK de Documento de inteligencia | Document Intelligence Studio |
La operación Build
para entrenar el modelo es compatible con una nueva propiedad buildMode
, para entrenar un modelo neuronal personalizado, establezca buildMode
en neural
.
https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
https://{endpoint}/formrecognizer/documentModels:build?api-version=v3.1:2023-07-31
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
https://{endpoint}/formrecognizer/documentModels/{modelId}:copyTo?api-version=2022-08-31
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
Facturación
A partir de la versión 2024-07-31-preview
, puede entrenar el modelo neuronal personalizado durante el estándar de más de 30 minutos. Las versiones anteriores están limitadas a 30 minutos por instancia de entrenamiento, con un total de 20 instancias de entrenamiento gratuitas al mes. Ahora con 2024-07-31-preview
, puede recibir 10 horas de entrenamiento gratuito del modelo y entrenar un modelo durante hasta 10 horas.
Puede optar por dedicar las 10 horas libres a una única compilación de modelo con un gran conjunto de datos, o utilizarlas en varias compilaciones al ajustar el valor de duración máxima de la operación build
mediante la especificación de maxTrainingHours
:
POST https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
...,
"maxTrainingHours": 10
}
Importante
- Si desea entrenar modelos neuronales adicionales o entrenar modelos durante un período de tiempo más largo que supere las 10 horas, se aplican cargos de facturación. Para más información sobre los cargos de facturación, consulte la página de precios.
- Puede optar por este servicio de entrenamiento de pago al establecer
maxTrainingHours
al número máximo de horas deseado. Las llamadas API sin presupuesto, pero con el conjuntomaxTrainingHours
como más de 10 horas producirán un error. - Dado que cada compilación tarda un tiempo diferente en función del tipo y el tamaño del conjunto de datos de entrenamiento, la facturación se calcula para el tiempo real dedicado al entrenamiento del modelo neuronal, con un mínimo de 30 minutos por trabajo de entrenamiento.
- Esta característica de entrenamiento de pago le permite entrenar conjuntos de datos más grandes durante períodos más largos con flexibilidad en las horas de entrenamiento.
GET /documentModels/{myCustomModel}
{
"modelId": "myCustomModel",
"trainingHours": 0.23,
"docTypes": { ... },
...
}
Nota:
En el caso de las versiones de Documento de inteligencia v3.1 (2023-07-31)
y v3.0 (2022-08-31)
, el entrenamiento de pago del modelo neuronal personalizado no está habilitado. En las dos versiones anteriores, obtendrá un máximo de 30 minutos de duración de entrenamiento por modelo. Si desea entrenar más de 20 instancias de modelo, puede crear una incidencia de soporte técnico de Azure para aumentar el límite de entrenamiento.
Facturación
En el caso de las versiones de Documento de inteligencia v3.1 (2023-07-31) and v3.0 (2022-08-31)
, recibe un máximo de 30 minutos de duración de entrenamiento por modelo y un máximo de 20 entrenamientos gratis al mes. Si desea entrenar más de 20 instancias de modelo, puede crear una incidencia de soporte técnico de Azure para aumentar el límite de entrenamiento. En Incidencia de soporte técnico de Azure, escriba en el campo summary
: Increase Document Intelligence custom neural training (TPS) limit
.
Importante
- Al aumentar el límite de entrenamiento, tenga en cuenta que dos sesiones de entrenamiento de modelos neuronales personalizados se considerarán como una hora de entrenamiento. Para obtener más información sobre los precios para aumentar el número de sesiones de entrenamiento, consulte* la página de precios.
- La incidencia de soporte técnico de Azure para el aumento del límite de entrenamiento solo se puede aplicar a nivel de recurso, no a nivel de suscripción. Puede solicitar un aumento del límite de entrenamiento para un único recurso de Documento de inteligencia al especificar el id. de recurso y la región en la incidencia de soporte técnico.
Si desea entrenar modelos durante más de 30 minutos, se admite el entrenamiento de pago con nuestra versión más reciente, v4.0 (2024-07-31-preview)
. Con la versión más reciente, puede entrenar el modelo durante más tiempo para procesar documentos más extensos. Para obtener más información sobre el entrenamiento de pago, consulte Billing v4.0.
Facturación
En el caso de las versiones de Documento de inteligencia v3.1 (2023-07-31) and v3.0 (2022-08-31)
, recibe un máximo de 30 minutos de duración de entrenamiento por modelo y un máximo de 20 entrenamientos gratis al mes. Si desea entrenar más de 20 instancias de modelo, puede crear una incidencia de soporte técnico de Azure para aumentar el límite de entrenamiento. En Incidencia de soporte técnico de Azure, escriba en el campo summary
: Increase Document Intelligence custom neural training (TPS) limit
.
Importante
- Al aumentar el límite de entrenamiento, tenga en cuenta que dos sesiones de entrenamiento de modelos neuronales personalizados se considerarán como una hora de entrenamiento. Para obtener más información sobre los precios para aumentar el número de sesiones de entrenamiento, consulte la página de precios.
- La incidencia de soporte técnico de Azure para el aumento del límite de entrenamiento solo se puede aplicar a nivel de recurso, no a nivel de suscripción. Puede solicitar un aumento del límite de entrenamiento para un único recurso de Documento de inteligencia al especificar el id. de recurso y la región en la incidencia de soporte técnico.
Si desea entrenar modelos durante más de 30 minutos, se admite el entrenamiento de pago con nuestra versión más reciente, v4.0 (2024-07-31)
. Con la versión más reciente, puede entrenar el modelo durante más tiempo para procesar documentos más extensos. Para obtener más información sobre el entrenamiento de pago, consulte Billing v4.0.
Pasos siguientes
Aprenda a crear y componer modelos personalizados: