Modèle personnalisé Intelligence documentaire

Article
08/10/2024

Important

Les mises en production de préversion publique Document Intelligence fournissent un accès anticipé aux fonctionnalités en cours de développement actif. Les fonctionnalités, approches et processus peuvent changer, avant la disponibilité générale (GA), en fonction des commentaires des utilisateurs.
La préversion publique des bibliothèques de client Intelligence documentaire utilise par défaut la version 2024-07-31-preview de l’API REST.
La préversion publique 2024-07-31-preview est actuellement disponible uniquement dans les régions Azure suivantes. Notez que le modèle génératif personnalisé (extraction de champ de document) dans AI Studio est disponible uniquement dans la région USA Centre Nord :
- USA Est
- USA Ouest 2
- Europe Ouest
- USA Centre Nord

Ce contenu s’applique à : v4.0 (préversion) | Versions précédentes : v3.1 (GA) v3.0 (GA)

Ce contenu s’applique à : v3.1 (GA) | Dernière version : v4.0 (préversion) | Versions précédentes : v3.0

Ce contenu s’applique à : v3.0 (GA) | Dernières versions : v4.0 (préversion) v3.1

Les modèles de documents neuronaux personnalisés ou modèles neuronaux représentent un type de modèle d’apprentissage profond qui combine des caractéristiques de mise en page et de langue pour extraire avec précision les champs étiquetés de documents. Le modèle neuronal personnalisé de base est formé sur différents types de documents qui lui permettent d’être formé pour extraire des champs à partir de documents structurés et semi-structurés. Les modèles neuronaux personnalisés sont disponibles dans les modèles v3.0 et ultérieurs Le tableau ci-dessous répertorie les types de documents courants pour chaque catégorie :

Documents	Exemples
Données structurées	enquêtes, questionnaires
Données semi-structurées	factures, bons de commande

Les modèles neuronaux personnalisés partagent le même format et la même stratégie d’étiquetage que les modèles de modèles personnalisés. Actuellement, les modèles neuronaux personnalisés ne prennent en charge qu’un sous-ensemble des types de champs pris en charge par les modèles de modèles personnalisés.

Fonctionnalités des modèles

Important

À compter de la version 2024-02-29-preview de l’API, les modèles neuraux personnalisés ajoutent la prise en charge des champs qui se chevauchent et de la confiance au niveau des cellules de table.

Les modèles neuronaux personnalisés prennent actuellement en charge les paires clé-valeur et les marques de sélection et les champs structurés (tables).

Champs de formulaire	Marques de sélection	Champs tabulaires	Signature	Étiquetage de la région	Champs qui se chevauchent
Prise en charge	Prise en charge	Prise en charge	Non pris en charge	Pris en charge ¹	Pris en charge ²

Les étiquettes de région ¹ dans les modèles neuraux personnalisés utilisent les résultats de l’API Disposition pour la région spécifiée. Cette fonctionnalité est différente des modèles de modèle où, si aucune valeur n’est présente, le texte est généré au moment de l’entraînement.
² Champs qui se chevauchent sont pris en charge à partir de la version de l’API REST 2024-02-29-preview. Les champs qui se chevauchent ont des limites. Pour plus d’informations, consultez Champs qui se chevauchent.

Mode de génération

L’opération Build prend en charge les modèles et les modèles neuronaux personnalisés. Les versions précédentes de l’API REST et des bibliothèques clientes prenaient en charge uniquement un mode de génération unique, désormais appelé mode modèle.

Les modèles neuraux prennent en charge des documents qui comportent les mêmes informations, mais des structures de page différentes. Par exemple, ces documents incluent des formulaires W2 aux États-Unis, qui partagent les mêmes informations, mais peuvent varier en apparence entre les entreprises. Pour plus d’informations, consultez Mode de génération du modèle personnalisé.

Champs qui se chevauchent

Avec la version des versions d’API 2024-02-29-preview et ultérieures, les modèles neuronaux personnalisés prennent en charge les champs qui se chevauchent :

Champs qui se chevauchent

Avec la publication des versions d’API 2024-07-31-preview et versions ultérieures, les modèles neuronaux personnalisés prennent en charge les champs qui se chevauchent :

Pour utiliser les champs qui se chevauchent, votre jeu de données doit contenir au moins un exemple avec le chevauchement attendu. Pour étiqueter un chevauchement, utilisez l’étiquetage de région pour désigner chacune des étendues de contenu (avec le chevauchement) pour chaque champ. L’étiquetage d’un chevauchement avec la sélection de champ (surbrillance une valeur) échoue dans Studio, car l’étiquetage de région est le seul outil d’étiquetage pris en charge pour indiquer que les champs se chevauchent. La prise en charge des chevauchements comprend :

Chevauchement complet. Le même jeu de jetons est étiqueté pour deux champs différents.
Chevauchement partiel. Certains jetons appartiennent aux deux champs, mais il existe des jetons qui ne font partie que d’un champ ou de l’autre.

Les champs qui se chevauchent ont des limites :

N’importe quel jeton ou mot ne peut être étiqueté que sous la forme de deux champs.
Les champs qui se chevauchent dans une table ne peuvent pas s’étendre sur les lignes de la table.
Les champs qui se chevauchent ne peuvent être reconnus que si au moins un échantillon du jeu de données contient des étiquettes qui se chevauchent pour ces champs.

Pour utiliser des champs qui se chevauchent, étiquetez votre jeu de données avec les chevauchements et effectuez l’apprentissage du modèle avec la version 2024-02-29-preview ou ultérieure de l’API.

Champs tabulaires

Avec la publication des versions d’API 2022-06-30-preview et versions ultérieures, les modèles neuronaux personnalisés prennent en charge les champs tabulaires (tables) pour analyser les données de table, de ligne et de cellule en toute confiance :

Les modèles entraînés avec l’API version 2022-06-30-preview, ou version ultérieure acceptent les étiquettes de champs tabulaires.
Les documents analysés avec des modèles neuronaux personnalisés utilisant l’API version 2022-06-30-preview ou ultérieure produisent des champs tabulaires agrégés dans les tables.
Les résultats se trouvent dans le tableau documents de l’objet analyzeResult retourné après une opération d’analyse.

Les champs tabulaires prennent en charge les multipage par défaut :

Pour étiqueter une table qui s’étend sur plusieurs pages, étiquetez chaque ligne de la table sur les différentes pages d’une seule table.
En guise de bonne pratique, assurez-vous que votre jeu de données contient quelques exemples des variations attendues. Par exemple, incluez des exemples dans lesquels la table entière se trouve sur une seule page et où les tables s’étendent sur deux pages ou plus.

Les champs tabulaires sont également utiles lors de l’extraction d’informations répétées dans un document qui n’est pas reconnu comme une table. Par exemple, une section répétée d’expériences de travail dans un CV peut être étiquetée et extraite en tant que champ tabulaire.

Les champs tabulaires fournissent la confiance au niveau des tables, des lignes et des cellules à partir de l’API 2024-02-29-preview :

Les tables fixes ou dynamiques ajoutent une prise en charge de la confiance pour les éléments suivants :
- Confiance au niveau de la table, une mesure de la précision à laquelle la table entière est reconnue.
- Confiance au niveau des lignes, une mesure de la reconnaissance d’une ligne individuelle.
- Confiance au niveau des cellules, une mesure de la reconnaissance d’une cellule individuelle.
L’approche recommandée consiste à examiner la précision de manière descendante en commençant par la table, suivie de la ligne, puis de la cellule. Consultez les scores de confiance et de précision pour en savoir plus sur la confiance au niveau des tables, des lignes et des cellules.

Langues et régions prises en charge

Consultez nos modèles personnalisés Language Support— pour obtenir la liste complète des langues prises en charge.

Régions prises en charge

À compter du 18 octobre 2022 et jusqu’à nouvel ordre, l’entraînement du modèle neuronal personnalisé Document Intelligence ne sera disponible que dans les régions Azure suivantes :

Australie Est
Brésil Sud
Centre du Canada
Inde centrale
USA Centre
Asie Est
USA Est
USA Est 2
France Centre
Japon Est
États-Unis - partie centrale méridionale
Asie Sud-Est
Sud du Royaume-Uni
Europe Ouest
USA Ouest 2
Gouvernement des États-Unis – Arizona
Gouvernement américain - Virginie

Conseil

Vous pouvez copier un modèle formé dans l’une des régions sélectionnées vers toute autre région, et l’utiliser en conséquence.

Utilisez l’API REST ou Document Intelligence Studio pour copier un modèle vers une autre région.

Conseil

Vous pouvez copier un modèle formé dans l’une des régions sélectionnées vers toute autre région, et l’utiliser en conséquence.

Utilisez l’API REST ou Document Intelligence Studio pour copier un modèle vers une autre région.

Conseil

Vous pouvez copier un modèle formé dans l’une des régions sélectionnées vers toute autre région, et l’utiliser en conséquence.

Utilisez l’API REST ou Document Intelligence Studio pour copier un modèle vers une autre région.

Critères des entrées

Pour de meilleurs résultats, fournissez une photo nette ou une copie de qualité par document.

Formats de fichiers pris en charge :

Modèle	PDF	Image : jpeg/`jpg`, `png`, `bmp`, `tiff`, `heif`	Microsoft Office : Word (docx), Excel (xlsx), PowerPoint (pptx), et HTML
Lire	✔	✔	✔
Layout	✔	✔	✔ (2024-02-29-preview, 2023-10-31-preview ou version ultérieure)
Document général	✔	✔
Prédéfinie	✔	✔
Modèle neuronal personnalisé	✔	✔

✱ Les fichiers Microsoft Office ne sont actuellement pas pris en charge pour d’autres modèles ou versions.

Pour PDF et TIFF, il est possible de traiter jusqu’à 2000 pages (avec un abonnement gratuit, seules les deux premières pages sont traitées).
La taille de fichier pour l’analyse des documents est de 500 Mo pour le niveau payant (S0) et de 4 Mo pour le niveau gratuit (F0).
Les dimensions des images doivent être comprises entre 50 x 50 et 10 000 x 10 000 pixels.
Si vos fichiers PDF sont verrouillés par mot de passe, vous devez supprimer le verrou avant leur envoi.
La hauteur minimale du texte à extraire est de 12 pixels pour une image de 1024 x 768 pixels. Cette dimension correspond à environ 8 points de texte à 150 points par pouce.
Pour la formation de modèles personnalisés, le nombre maximal de pages pour les données de formation est de 500 pour le modèle personnalisé et 50 000 pour le modèle neural personnalisé.
Pour l’entraînement du modèle d’extraction personnalisé, la taille totale des données d’entraînement est de 50 Mo pour le modèle et 1G-Mo pour le modèle neural.
Pour l’entraînement du modèle de classification personnalisée, la taille totale des données de formation est 1GB, avec un maximum à 10 000 pages.

Bonnes pratiques

Les modèles neuronaux personnalisés diffèrent des modèles de modèles personnalisés sur plusieurs points. Le modèle personnalisé s’appuie sur un modèle visuel cohérent pour extraire les données étiquetées. Les modèles neuronaux personnalisés prennent en charge les champs structurés et semi-structurés pour extraire des champs. Lorsque vous choisissez entre les types de modèles, commencez par un modèle neuronal et testez pour déterminer s’il prend en charge vos besoins fonctionnels.

Gestion des variantes : les modèles neuronaux personnalisés peuvent être généralisés dans différents formats d’un type de document unique. Il est recommandé de créer un modèle unique pour toutes les variations d’un type de document. Ajoutez au moins cinq exemples étiquetés pour chacune des différentes variations du jeu de données d’apprentissage.
Nommage de champ : lorsque vous étiquetez les données, l’étiquetage du champ correspondant à la valeur améliore la précision des paires clé-valeur extraites. Par exemple, pour une valeur de champ contenant l’ID de fournisseur, vous pouvez nommer le champ supplier_id. Les noms de champs doivent être exprimés dans la langue du document.
Étiquetage des valeurs contiguës - Les jetons/mots de valeur d’un champ doivent être les suivants :
- Dans une séquence consécutive dans un ordre de lecture naturel sans entrelacement avec d’autres champs
- Dans une région qui ne couvre aucun autre champ
Données représentatives : les valeurs dans les cas d’entraînement doivent être diverses et représentatives. Par exemple, si un champ est nommé date, les valeurs de ce champ doivent être une date. Une valeur synthétique comme une chaîne aléatoire peut affecter les performances du modèle.

Limitations actuelles

Le modèle neural personnalisé ne reconnaît pas les valeurs fractionnées au-delà des limites de la page.
Les types de champs non pris en charge sont ignorés si un jeu de données étiqueté pour des modèles personnalisés est utilisé pour effectuer l’apprentissage d’un modèle neural personnalisé.
Les modèles neuronaux personnalisés sont limités à 20 opérations de build par mois. Ouvrez une demande de support si vous avez besoin d’augmenter cette limite. Pour plus d’informations, consultez Quotas et limites du service Intelligence documentaire.

Training a model

Les modèles neuronaux personnalisés sont disponibles dans les modèles v3.0 et versions ultérieures.

Type de document	API REST	Kit SDK	Étiquetage et test des modèles
Document personnalisé	Intelligence documentaire 3.1	Kit de développement logiciel (SDK) Document Intelligence	Document Intelligence Studio

L’opération de Build pour entraîner le modèle prend en charge une nouvelle propriété buildMode, pour entraîner un modèle neuronal personnalisé, définissez la buildMode sur neural.

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

https://{endpoint}/formrecognizer/documentModels:build?api-version=v3.1:2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

https://{endpoint}/formrecognizer/documentModels/{modelId}:copyTo?api-version=2022-08-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Billing

À compter de la version 2024-07-31-preview, vous pouvez entraîner votre modèle neuronal personnalisé pendant plus de 30 minutes. Les versions précédentes ont été limitées à 30 minutes par instance d’entraînement, avec un total de 20 instances de formation gratuites par mois. Maintenant, avec 2024-07-31-preview, vous pouvez recevoir 10 heures d’entraînement de modèle gratuit et entraîner un modèle pendant 10 heures. Si vous souhaitez entraîner un modèle pendant plus de 10 heures, les frais de facturation sont calculés pour les formations de modèle qui dépassent 10 heures. Vous pouvez choisir de passer toutes les 10 heures gratuites sur une seule build avec un grand ensemble de données, ou l’utiliser sur plusieurs builds en ajustant la valeur de durée maximale pour l’opération de build en spécifiant maxTrainingHours comme indiqué ci-dessous :


POST /documentModels:build
{
  ...,
  "maxTrainingHours": 10
}

Remarque

Pour les versions de Document Intelligence v3.1 (2023-07-31) et v3.0 (2022-08-31), l’entraînement payant du modèle neuronal personnalisé n’est pas activé. Pour les deux versions antérieures, vous obtiendrez un maximum de 30 minutes de durée d’entraînement par modèle. Si vous souhaitez entraîner plus de 20 instances de modèle, vous pouvez demander une augmentation de la limite d’entraînement.

Chaque heure d’entraînement correspond à la quantité de calcul qu’un seul GPU V100 peut effectuer en une heure. Comme chaque build prend un temps différent, la facturation est calculée pour le temps réel passé (à l’exclusion du temps dans la file d’attente), avec un minimum de 30 minutes par travail de formation. Le temps écoulé est converti en heures d’entraînement équivalentes V100 et signalé dans le cadre du modèle.


GET /documentModels/{myCustomModel}
{
  "modelId": "myCustomModel",
  "trainingHours": 0.23,
  "docTypes": { ... },
  ...
}

Cette structure de facturation vous permet d’entraîner des jeux de données plus volumineux pendant des durées plus longues avec flexibilité dans les heures d’entraînement.

Billing

Pour les versions document Intelligence v3.1 (2023-07-31) et v3.0 (2022-08-31), vous obtiendrez un maximum de 30 minutes de durée d’entraînement par modèle et un maximum de 20 formations gratuitement par mois. Si vous souhaitez entraîner plus de 20 instances de modèle, vous pouvez demander une augmentation de la limite d’entraînement.

Si vous êtes intéressé par les modèles d’entraînement pendant plus de 30 minutes, nous prenons en charge une formation payante pour notre version la plus récente, v4.0 (2024-07-31). À l’aide de la dernière version, vous pouvez entraîner votre modèle pendant une durée plus longue pour traiter des documents plus volumineux.

Billing

Étapes suivantes

Apprenez à créer et à composer des modèles personnalisés :

Générer un modèle personnaliséComposer des modèles personnalisés

Partager via

Modèle personnalisé Intelligence documentaire

Fonctionnalités des modèles

Mode de génération

Champs qui se chevauchent

Champs qui se chevauchent

Champs tabulaires

Langues et régions prises en charge

Régions prises en charge

Critères des entrées

Bonnes pratiques

Limitations actuelles

Training a model

Billing

Billing

Billing

Étapes suivantes

Commentaires

Commentaires

Ressources supplémentaires