Modèle personnalisé Intelligence documentaire
Important
- Les mises en production de préversion publique Document Intelligence fournissent un accès anticipé aux fonctionnalités en cours de développement actif. Les fonctionnalités, approches et processus peuvent changer, avant la disponibilité générale (GA), en fonction des commentaires des utilisateurs.
- La préversion publique des bibliothèques de client Intelligence documentaire utilise par défaut la version 2024-07-31-preview de l’API REST.
- La préversion publique 2024-07-31-preview est actuellement disponible uniquement dans les régions Azure suivantes. Notez que le modèle génératif personnalisé (extraction de champ de document) dans AI Studio est disponible uniquement dans la région USA Centre Nord :
- USA Est
- USA Ouest 2
- Europe Ouest
- USA Centre Nord
Ce contenu s’applique à : v4.0 (préversion) | Versions précédentes : v3.1 (GA) v3.0 (GA)
Ce contenu s’applique à : v3.1 (GA) | Dernière version : v4.0 (préversion) | Versions précédentes : v3.0
Ce contenu s’applique à : v3.0 (GA) | Dernières versions : v4.0 (préversion) v3.1
Les modèles de documents neuronaux personnalisés ou modèles neuronaux représentent un type de modèle d’apprentissage profond qui combine des caractéristiques de mise en page et de langue pour extraire avec précision les champs étiquetés de documents. Le modèle neuronal personnalisé de base est formé sur différents types de documents qui lui permettent d’être formé pour extraire des champs à partir de documents structurés et semi-structurés. Les modèles neuronaux personnalisés sont disponibles dans les modèles v3.0 et ultérieurs Le tableau ci-dessous répertorie les types de documents courants pour chaque catégorie :
Documents | Exemples |
---|---|
Données structurées | enquêtes, questionnaires |
Données semi-structurées | factures, bons de commande |
Les modèles neuronaux personnalisés partagent le même format et la même stratégie d’étiquetage que les modèles de modèles personnalisés. Actuellement, les modèles neuronaux personnalisés ne prennent en charge qu’un sous-ensemble des types de champs pris en charge par les modèles de modèles personnalisés.
Fonctionnalités des modèles
Important
À compter de la version 2024-02-29-preview
de l’API, les modèles neuraux personnalisés ajoutent la prise en charge des champs qui se chevauchent et de la confiance au niveau des cellules de table.
Les modèles neuronaux personnalisés prennent actuellement en charge les paires clé-valeur et les marques de sélection et les champs structurés (tables).
Champs de formulaire | Marques de sélection | Champs tabulaires | Signature | Étiquetage de la région | Champs qui se chevauchent |
---|---|---|---|---|---|
Prise en charge | Prise en charge | Prise en charge | Non pris en charge | Pris en charge 1 | Pris en charge 2 |
Les étiquettes de région 1 dans les modèles neuraux personnalisés utilisent les résultats de l’API Disposition pour la région spécifiée. Cette fonctionnalité est différente des modèles de modèle où, si aucune valeur n’est présente, le texte est généré au moment de l’entraînement.
2 Champs qui se chevauchent sont pris en charge à partir de la version de l’API REST 2024-02-29-preview
. Les champs qui se chevauchent ont des limites. Pour plus d’informations, consultez Champs qui se chevauchent.
Mode de génération
L’opération Build
prend en charge les modèles et les modèles neuronaux personnalisés. Les versions précédentes de l’API REST et des bibliothèques clientes prenaient en charge uniquement un mode de génération unique, désormais appelé mode modèle.
Les modèles neuraux prennent en charge des documents qui comportent les mêmes informations, mais des structures de page différentes. Par exemple, ces documents incluent des formulaires W2 aux États-Unis, qui partagent les mêmes informations, mais peuvent varier en apparence entre les entreprises. Pour plus d’informations, consultez Mode de génération du modèle personnalisé.
Champs qui se chevauchent
Avec la version des versions d’API 2024-02-29-preview
et ultérieures, les modèles neuronaux personnalisés prennent en charge les champs qui se chevauchent :
Champs qui se chevauchent
Avec la publication des versions d’API 2024-07-31-preview et versions ultérieures, les modèles neuronaux personnalisés prennent en charge les champs qui se chevauchent :
Pour utiliser les champs qui se chevauchent, votre jeu de données doit contenir au moins un exemple avec le chevauchement attendu. Pour étiqueter un chevauchement, utilisez l’étiquetage de région pour désigner chacune des étendues de contenu (avec le chevauchement) pour chaque champ. L’étiquetage d’un chevauchement avec la sélection de champ (surbrillance une valeur) échoue dans Studio, car l’étiquetage de région est le seul outil d’étiquetage pris en charge pour indiquer que les champs se chevauchent. La prise en charge des chevauchements comprend :
- Chevauchement complet. Le même jeu de jetons est étiqueté pour deux champs différents.
- Chevauchement partiel. Certains jetons appartiennent aux deux champs, mais il existe des jetons qui ne font partie que d’un champ ou de l’autre.
Les champs qui se chevauchent ont des limites :
- N’importe quel jeton ou mot ne peut être étiqueté que sous la forme de deux champs.
- Les champs qui se chevauchent dans une table ne peuvent pas s’étendre sur les lignes de la table.
- Les champs qui se chevauchent ne peuvent être reconnus que si au moins un échantillon du jeu de données contient des étiquettes qui se chevauchent pour ces champs.
Pour utiliser des champs qui se chevauchent, étiquetez votre jeu de données avec les chevauchements et effectuez l’apprentissage du modèle avec la version 2024-02-29-preview
ou ultérieure de l’API.
Champs tabulaires
Avec la publication des versions d’API 2022-06-30-preview et versions ultérieures, les modèles neuronaux personnalisés prennent en charge les champs tabulaires (tables) pour analyser les données de table, de ligne et de cellule en toute confiance :
- Les modèles entraînés avec l’API version 2022-06-30-preview, ou version ultérieure acceptent les étiquettes de champs tabulaires.
- Les documents analysés avec des modèles neuronaux personnalisés utilisant l’API version 2022-06-30-preview ou ultérieure produisent des champs tabulaires agrégés dans les tables.
- Les résultats se trouvent dans le tableau
documents
de l’objetanalyzeResult
retourné après une opération d’analyse.
Les champs tabulaires prennent en charge les multipage par défaut :
- Pour étiqueter une table qui s’étend sur plusieurs pages, étiquetez chaque ligne de la table sur les différentes pages d’une seule table.
- En guise de bonne pratique, assurez-vous que votre jeu de données contient quelques exemples des variations attendues. Par exemple, incluez des exemples dans lesquels la table entière se trouve sur une seule page et où les tables s’étendent sur deux pages ou plus.
Les champs tabulaires sont également utiles lors de l’extraction d’informations répétées dans un document qui n’est pas reconnu comme une table. Par exemple, une section répétée d’expériences de travail dans un CV peut être étiquetée et extraite en tant que champ tabulaire.
Les champs tabulaires fournissent la confiance au niveau des tables, des lignes et des cellules à partir de l’API 2024-02-29-preview
:
Les tables fixes ou dynamiques ajoutent une prise en charge de la confiance pour les éléments suivants :
- Confiance au niveau de la table, une mesure de la précision à laquelle la table entière est reconnue.
- Confiance au niveau des lignes, une mesure de la reconnaissance d’une ligne individuelle.
- Confiance au niveau des cellules, une mesure de la reconnaissance d’une cellule individuelle.
L’approche recommandée consiste à examiner la précision de manière descendante en commençant par la table, suivie de la ligne, puis de la cellule. Consultez les scores de confiance et de précision pour en savoir plus sur la confiance au niveau des tables, des lignes et des cellules.
Langues et régions prises en charge
Consultez nos modèles personnalisés Language Support— pour obtenir la liste complète des langues prises en charge.
Régions prises en charge
À compter du 18 octobre 2022 et jusqu’à nouvel ordre, l’entraînement du modèle neuronal personnalisé Document Intelligence ne sera disponible que dans les régions Azure suivantes :
- Australie Est
- Brésil Sud
- Centre du Canada
- Inde centrale
- USA Centre
- Asie Est
- USA Est
- USA Est 2
- France Centre
- Japon Est
- États-Unis - partie centrale méridionale
- Asie Sud-Est
- Sud du Royaume-Uni
- Europe Ouest
- USA Ouest 2
- Gouvernement des États-Unis – Arizona
- Gouvernement américain - Virginie
Conseil
Vous pouvez copier un modèle formé dans l’une des régions sélectionnées vers toute autre région, et l’utiliser en conséquence.
Utilisez l’API REST ou Document Intelligence Studio pour copier un modèle vers une autre région.
Conseil
Vous pouvez copier un modèle formé dans l’une des régions sélectionnées vers toute autre région, et l’utiliser en conséquence.
Utilisez l’API REST ou Document Intelligence Studio pour copier un modèle vers une autre région.
Conseil
Vous pouvez copier un modèle formé dans l’une des régions sélectionnées vers toute autre région, et l’utiliser en conséquence.
Utilisez l’API REST ou Document Intelligence Studio pour copier un modèle vers une autre région.
Critères des entrées
Pour de meilleurs résultats, fournissez une photo nette ou une copie de qualité par document.
Formats de fichiers pris en charge :
Modèle PDF Image :
jpeg/jpg
,png
,bmp
,tiff
,heif
Microsoft Office :
Word (docx), Excel (xlsx), PowerPoint (pptx), et HTMLLire ✔ ✔ ✔ Layout ✔ ✔ ✔ (2024-02-29-preview, 2023-10-31-preview ou version ultérieure) Document général ✔ ✔ Prédéfinie ✔ ✔ Modèle neuronal personnalisé ✔ ✔ ✱ Les fichiers Microsoft Office ne sont actuellement pas pris en charge pour d’autres modèles ou versions.
Pour PDF et TIFF, il est possible de traiter jusqu’à 2000 pages (avec un abonnement gratuit, seules les deux premières pages sont traitées).
La taille de fichier pour l’analyse des documents est de 500 Mo pour le niveau payant (S0) et de 4 Mo pour le niveau gratuit (F0).
Les dimensions des images doivent être comprises entre 50 x 50 et 10 000 x 10 000 pixels.
Si vos fichiers PDF sont verrouillés par mot de passe, vous devez supprimer le verrou avant leur envoi.
La hauteur minimale du texte à extraire est de 12 pixels pour une image de 1024 x 768 pixels. Cette dimension correspond à environ
8
points de texte à 150 points par pouce.Pour la formation de modèles personnalisés, le nombre maximal de pages pour les données de formation est de 500 pour le modèle personnalisé et 50 000 pour le modèle neural personnalisé.
Pour l’entraînement du modèle d’extraction personnalisé, la taille totale des données d’entraînement est de 50 Mo pour le modèle et 1G-Mo pour le modèle neural.
Pour l’entraînement du modèle de classification personnalisée, la taille totale des données de formation est
1GB
, avec un maximum à 10 000 pages.
Bonnes pratiques
Les modèles neuronaux personnalisés diffèrent des modèles de modèles personnalisés sur plusieurs points. Le modèle personnalisé s’appuie sur un modèle visuel cohérent pour extraire les données étiquetées. Les modèles neuronaux personnalisés prennent en charge les champs structurés et semi-structurés pour extraire des champs. Lorsque vous choisissez entre les types de modèles, commencez par un modèle neuronal et testez pour déterminer s’il prend en charge vos besoins fonctionnels.
- Gestion des variantes : les modèles neuronaux personnalisés peuvent être généralisés dans différents formats d’un type de document unique. Il est recommandé de créer un modèle unique pour toutes les variations d’un type de document. Ajoutez au moins cinq exemples étiquetés pour chacune des différentes variations du jeu de données d’apprentissage.
- Nommage de champ : lorsque vous étiquetez les données, l’étiquetage du champ correspondant à la valeur améliore la précision des paires clé-valeur extraites. Par exemple, pour une valeur de champ contenant l’ID de fournisseur, vous pouvez nommer le champ supplier_id. Les noms de champs doivent être exprimés dans la langue du document.
- Étiquetage des valeurs contiguës - Les jetons/mots de valeur d’un champ doivent être les suivants :
- Dans une séquence consécutive dans un ordre de lecture naturel sans entrelacement avec d’autres champs
- Dans une région qui ne couvre aucun autre champ
- Données représentatives : les valeurs dans les cas d’entraînement doivent être diverses et représentatives. Par exemple, si un champ est nommé date, les valeurs de ce champ doivent être une date. Une valeur synthétique comme une chaîne aléatoire peut affecter les performances du modèle.
Limitations actuelles
- Le modèle neural personnalisé ne reconnaît pas les valeurs fractionnées au-delà des limites de la page.
- Les types de champs non pris en charge sont ignorés si un jeu de données étiqueté pour des modèles personnalisés est utilisé pour effectuer l’apprentissage d’un modèle neural personnalisé.
- Les modèles neuronaux personnalisés sont limités à 20 opérations de build par mois. Ouvrez une demande de support si vous avez besoin d’augmenter cette limite. Pour plus d’informations, consultez Quotas et limites du service Intelligence documentaire.
Training a model
Les modèles neuronaux personnalisés sont disponibles dans les modèles v3.0 et versions ultérieures.
Type de document | API REST | Kit SDK | Étiquetage et test des modèles |
---|---|---|---|
Document personnalisé | Intelligence documentaire 3.1 | Kit de développement logiciel (SDK) Document Intelligence | Document Intelligence Studio |
L’opération de Build
pour entraîner le modèle prend en charge une nouvelle propriété buildMode
, pour entraîner un modèle neuronal personnalisé, définissez la buildMode
sur neural
.
https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
https://{endpoint}/formrecognizer/documentModels:build?api-version=v3.1:2023-07-31
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
https://{endpoint}/formrecognizer/documentModels/{modelId}:copyTo?api-version=2022-08-31
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
Billing
À compter de la version 2024-07-31-preview
, vous pouvez entraîner votre modèle neural personnalisé pendant une durée plus longue que la durée standard de 30 minutes. Les versions précédentes sont limitées à 30 minutes par instance d’entraînement, avec un total de 20 instances d’entraînement gratuites par mois. Maintenant, avec 2024-07-31-preview
, vous pouvez recevoir 10 heures d’entraînement de modèle gratuit et entraîner un modèle jusqu’à 10 heures.
Vous pouvez choisir d’utiliser les 10 heures gratuites sur un seul build de modèle avec un grand ensemble de données, ou de les utiliser sur plusieurs builds en ajustant la valeur de durée maximale pour l’opération build
en spécifiant maxTrainingHours
:
POST https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
...,
"maxTrainingHours": 10
}
Important
- Si vous souhaitez entraîner des modèles neuraux supplémentaires ou entraîner des modèles pendant une période plus longue qui dépasse 10 heures, des frais de facturation s’appliquent. Pour plus d’informations sur les frais de facturation, reportez-vous à la page de tarification.
- Vous pouvez opter pour ce service d’entraînement payant en définissant
maxTrainingHours
sur le nombre maximal d’heures souhaité. Les appels d’API sans budget, mais avecmaxTrainingHours
défini sur plus de 10 heures échoueront. - Étant donné que chaque build prend un temps différent en fonction du type et de la taille du jeu de données d’entraînement, la facturation est calculée pour le temps réel passé à entraîner le modèle neural, avec un minimum de 30 minutes par travail d’entraînement.
- Cette fonctionnalité d’entraînement payante vous permet d’entraîner des jeux de données plus grands sur des durées plus longues avec une flexibilité sur les heures d’entraînement.
GET /documentModels/{myCustomModel}
{
"modelId": "myCustomModel",
"trainingHours": 0.23,
"docTypes": { ... },
...
}
Remarque
Pour les versions de Document Intelligence v3.1 (2023-07-31)
et v3.0 (2022-08-31)
, l’entraînement payant du modèle neuronal personnalisé n’est pas activé. Pour les deux versions antérieures, vous obtiendrez un maximum de 30 minutes de durée d’entraînement par modèle. Si vous souhaitez entraîner plus de 20 instances de modèle, vous pouvez créer un ticket de support Azure pour augmenter la limite d’entraînement.
Billing
Pour les versions v3.1 (2023-07-31) and v3.0 (2022-08-31)
d’Intelligence documentaire, vous obtenez un maximum de 30 minutes de durée d’entraînement par modèle et un maximum de 20 entraînements gratuits par mois. Si vous souhaitez entraîner plus de 20 instances de modèle, vous pouvez créer un ticket de support Azure pour augmenter la limite d’entraînement. Pour le ticket de support Azure, entrez ce qui suit dans le champ summary
: Increase Document Intelligence custom neural training (TPS) limit
.
Important
- Lors de l’augmentation de la limite d’entraînement, notez que 2 sessions d’entraînement de modèle neuronal personnalisées comptent comme 1 heure d’entraînement. Pour découvrir plus d’informations sur les prix de l’augmentation du nombre de sessions d’apprentissage, consultez* la page de tarification.
- Le ticket de support Azure pour l’augmentation de la limite d’entraînement peut seulement s’appliquer à un niveau de ressource, pas à un niveau d’abonnement. Vous pouvez demander une augmentation de la limite d’entraînement pour une ressource Intelligence documentaire unique en spécifiant votre ID de ressource et votre région dans le ticket de support.
Si vous souhaitez entraîner des modèles sur des durées supérieures à 30 minutes, nous prenons en charge l’entraînement payant avec notre version la plus récente, v4.0 (2024-07-31-preview)
. À l’aide de la dernière version, vous pouvez entraîner votre modèle pendant une durée plus longue pour traiter des documents plus volumineux. Pour plus d’informations sur l’entraînement payant, consultez Facturation v4.0.
Billing
Pour les versions v3.1 (2023-07-31) and v3.0 (2022-08-31)
d’Intelligence documentaire, vous obtenez un maximum de 30 minutes de durée d’entraînement par modèle et un maximum de 20 entraînements gratuits par mois. Si vous souhaitez entraîner plus de 20 instances de modèle, vous pouvez créer un ticket de support Azure pour augmenter la limite d’entraînement. Pour le ticket de support Azure, entrez ce qui suit dans le champ summary
: Increase Document Intelligence custom neural training (TPS) limit
.
Important
- Lors de l’augmentation de la limite d’entraînement, notez que 2 sessions d’entraînement de modèle neuronal personnalisées comptent comme 1 heure d’entraînement. Pour découvrir plus d’informations sur les prix de l’augmentation du nombre de sessions d’apprentissage, consultez la page de tarification.
- Le ticket de support Azure pour l’augmentation de la limite d’entraînement peut seulement s’appliquer à un niveau de ressource, pas à un niveau d’abonnement. Vous pouvez demander une augmentation de la limite d’entraînement pour une ressource Intelligence documentaire unique en spécifiant votre ID de ressource et votre région dans le ticket de support.
Si vous souhaitez entraîner des modèles sur des durées supérieures à 30 minutes, nous prenons en charge l’entraînement payant avec notre version la plus récente, v4.0 (2024-07-31)
. À l’aide de la dernière version, vous pouvez entraîner votre modèle pendant une durée plus longue pour traiter des documents plus volumineux. Pour plus d’informations sur l’entraînement payant, consultez Facturation v4.0.
Étapes suivantes
Apprenez à créer et à composer des modèles personnalisés :