Modèle personnalisé Intelligence documentaire

Article
03/11/2024

Important

Les mises en production de préversion publique Document Intelligence fournissent un accès anticipé aux fonctionnalités en cours de développement actif.
Les fonctionnalités, approches et processus peuvent changer, avant la disponibilité générale (GA), en fonction des commentaires des utilisateurs.
La version d'aperçu publique des bibliothèques clientes Document Intelligence est par défaut la version 2024-02-29-preview de l'API REST.
La version d’évaluation publique 2024-02-29-preview est actuellement disponible uniquement dans les régions Azure suivantes :
USA Est
USA Ouest 2
Europe Ouest

Ce contenu s’applique à :v4.0 (préversion) | Versions précédentes :v3.1 (GA)v3.0 (GA)

Ce contenu s’applique à :version 3.1 (GA) | Dernière version :v4.0 (préversion) | Versions précédentes :v3.0

Ce contenu s’applique à :v3.0 (GA) | Dernières versions :v4.0 (préversion)v3.1

Les modèles de documents neuronaux personnalisés ou modèles neuronaux représentent un type de modèle d’apprentissage profond qui combine des caractéristiques de mise en page et de langue pour extraire avec précision les champs étiquetés de documents. Le modèle neural personnalisé de base est formé sur différents types de documents, ce qui le rend apte à être formé pour l’extraction de champs à partir de documents structurés, semi-structurés et non structurés. Les modèles neuronaux personnalisés sont disponibles dans les modèles v3.0 et ultérieurs Le tableau ci-dessous répertorie les types de documents courants pour chaque catégorie :

Documents	Exemples
Données structurées	enquêtes, questionnaires
Données semi-structurées	factures, bons de commande
Données non structurées	contrats, lettres

Les modèles neuronaux personnalisés partagent le même format et la même stratégie d’étiquetage que les modèles de modèles personnalisés. Actuellement, les modèles neuronaux personnalisés ne prennent en charge qu’un sous-ensemble des types de champs pris en charge par les modèles de modèles personnalisés.

Fonctionnalités des modèles

Important

À compter de la version 2024-02-29-preview de l’API, les modèles neuraux personnalisés ajoutent la prise en charge des champs qui se chevauchent et de la confiance au niveau des cellules de table.

Les modèles neuraux personnalisés ne prennent actuellement en charge que les paires clé-valeur, les marques de sélection et champs structurés (tables) ; les versions ultérieures apportent la prise en charge des signatures.

Champs de formulaire	Marques de sélection	Champs tabulaires	Signature	Région	Champs qui se chevauchent
Prise en charge	Prise en charge	Prise en charge	Non pris en charge	Pris en charge ¹	Pris en charge ²

Les étiquettes de région ¹ dans les modèles neuraux personnalisés utilisent les résultats de l’API Disposition pour la région spécifiée. Cette fonctionnalité est différente des modèles où, si aucune valeur n’est présente, le texte est généré au moment de l’apprentissage. ² Les champs qui se chevauchent sont pris en charge à partir de la version 2024-02-29-preview de l’API REST. Les champs qui se chevauchent ont des limites. Pour plus d’informations, consultezles champs qui se chevauchent.

Mode de génération

L’opération de modèle personnalisé de build prend en charge lemodèle et les modèles neuronaux personnalisés. Les versions précédentes de l’API REST et des bibliothèques clientes prenaient en charge uniquement un mode de génération unique, désormais appelé mode modèle.

Les modèles neuraux prennent en charge des documents qui comportent les mêmes informations, mais des structures de page différentes. Par exemple, ces documents incluent des formulaires W2 aux États-Unis, qui partagent les mêmes informations, mais peuvent varier en apparence entre les entreprises. Pour plus d’informations, consultezMode de génération de modèle personnalisé.

Langues et régions prises en charge

Consultez notre pagemodèles personnalisés - Language Support pour obtenir la liste complète des langages pris en charge.

Champs qui se chevauchent

Avec la publication des versions d’API 2024-02-29-preview et ultérieures, les modèles neuraux personnalisés prendront en charge les champs qui se chevauchent :

Pour utiliser les champs qui se chevauchent, votre jeu de données doit contenir au moins un exemple avec le chevauchement attendu. Pour étiqueter un chevauchement, utilisez l’étiquetage de région pour désigner chacune des étendues de contenu (avec le chevauchement) pour chaque champ. L’étiquetage d’un chevauchement avec la sélection de champs (mise en surbrillance d’une valeur) échoue dans le studio, car l’étiquetage de région est le seul outil d’étiquetage pris en charge pour indiquer que les champs se chevauchent. La prise en charge des chevauchements comprend :

Chevauchement complet. Le même jeu de jetons est étiqueté pour deux champs différents.
Chevauchement partiel. Certains jetons appartiennent aux deux champs, mais il existe des jetons qui ne font partie que d’un champ ou de l’autre.

Les champs qui se chevauchent ont des limites :

N’importe quel jeton ou mot ne peut être étiqueté que sous la forme de deux champs.
Les champs qui se chevauchent dans une table ne peuvent pas s’étendre sur les lignes de la table.
Les champs qui se chevauchent ne peuvent être reconnus que si au moins un échantillon du jeu de données contient des étiquettes qui se chevauchent pour ces champs.

Pour utiliser des champs qui se chevauchent, étiquetez votre jeu de données avec les chevauchements et effectuez l’apprentissage du modèle avec la version 2024-02-29-preview ou ultérieure de l’API.

Les champs tabulaires ajoutent la confiance de table, de ligne et de cellule

Avec la version d’API 2022-06-30-préversion ou versions ultérieures, les modèles neuronaux personnalisés prennent en charge les champs tabulaires (tables) :

Les modèles ayant effectué l’apprentissage avec l’API version 2022-08-31 ou version ultérieure acceptent les étiquettes de champs tabulaires.
Les documents analysés avec des modèles neuronaux personnalisés utilisant l’API version 2022-06-30-preview ou ultérieure produisent des champs tabulaires agrégés dans les tables.
Les résultats se trouvent dans le tableau documents de l’objet analyzeResult retourné après une opération d’analyse.

Les champs tabulaires prennent en charge les multipage par défaut :

Pour étiqueter une table qui s’étend sur plusieurs pages, étiquetez chaque ligne de la table sur les différentes pages d’une seule table.
En guise de bonne pratique, assurez-vous que votre jeu de données contient quelques exemples des variations attendues. Par exemple, incluez des exemples dans lesquels la table entière se trouve sur une seule page et où les tables s’étendent sur deux pages ou plus.

Les champs tabulaires sont également utiles lors de l’extraction d’informations répétées dans un document qui n’est pas reconnu comme une table. Par exemple, une section répétée d’expériences de travail dans un CV peut être étiquetée et extraite en tant que champ tabulaire.

Les champs tabulaires fournissent la confiance au niveau des tables, des lignes et des cellules à partir de l’API 2024-02-29-preview :

Les tables fixes ou dynamiques ajoutent une prise en charge de la confiance pour les éléments suivants :
- Confiance au niveau de la table, une mesure de la précision à laquelle la table entière est reconnue.
- Confiance au niveau des lignes, une mesure de la reconnaissance d’une ligne individuelle.
- Confiance au niveau des cellules, une mesure de la reconnaissance d’une cellule individuelle.
L’approche recommandée consiste à examiner la précision de manière descendante en commençant par la table, suivie de la ligne, puis de la cellule.

Consultez les scores de confiance et de précision pour en savoir plus sur la confiance au niveau des tables, des lignes et des cellules.

Régions prises en charge

À compter du 18 octobre 2022 et jusqu’à nouvel ordre, l’entraînement du modèle neuronal personnalisé Document Intelligence ne sera disponible que dans les régions Azure suivantes :

Australie Est
Brésil Sud
Centre du Canada
Inde centrale
USA Centre
Asie Est
USA Est
USA Est 2
France Centre
Japon Est
États-Unis - partie centrale méridionale
Asie Sud-Est
Sud du Royaume-Uni
Europe Ouest
USA Ouest 2
Gouvernement des États-Unis – Arizona
Gouvernement américain - Virginie

Conseil

Vous pouvez copier un modèle formé dans l’une des régions sélectionnées vers toute autre région, et l’utiliser en conséquence.

Utilisez l’API REST ou Document Intelligence Studio pour copier un modèle vers une autre région.

Conseil

Vous pouvez copier un modèle formé dans l’une des régions sélectionnées vers toute autre région, et l’utiliser en conséquence.

Utilisez l’API REST ou Document Intelligence Studio pour copier un modèle vers une autre région.

Conseil

Vous pouvez copier un modèle formé dans l’une des régions sélectionnées vers toute autre région, et l’utiliser en conséquence.

Utilisez l’API REST ou Document Intelligence Studio pour copier un modèle vers une autre région.

Critères des entrées

Pour de meilleurs résultats, fournissez une photo nette ou une copie de qualité par document.

Formats de fichiers pris en charge :

Modèle	PDF	Image : jpeg/jpg, png, bmp, tiff, heif	Microsoft Office : Word (docx), Excel (xlsx), PowerPoint (pptx), et HTML
Lire	✔	✔	✔
Layout	✔	✔	✔ (2024-02-29-preview, 2023-10-31-preview ou version ultérieure)
Document général	✔	✔
Prédéfinie	✔	✔
Modèle neuronal personnalisé	✔	✔

✱ Les fichiers Microsoft Office ne sont actuellement pas pris en charge pour d’autres modèles ou versions.

Pour PDF et TIFF, il est possible de traiter jusqu’à 2000 pages (avec un abonnement gratuit, seules les deux premières pages sont traitées).
La taille de fichier pour l’analyse des documents est de 500 Mo pour le niveau payant (S0) et de 4 Mo pour le niveau gratuit (F0).
Les dimensions des images doivent être comprises entre 50 x 50 et 10 000 x 10 000 pixels.
Si vos fichiers PDF sont verrouillés par mot de passe, vous devez supprimer le verrou avant leur envoi.
La hauteur minimale du texte à extraire est de 12 pixels pour une image de 1024 x 768 pixels. Cette dimension correspond à environ 8 points de texte à 150 points par pouce.
Pour la formation de modèles personnalisés, le nombre maximal de pages pour les données de formation est de 500 pour le modèle personnalisé et 50 000 pour le modèle neural personnalisé.
Pour l’entraînement du modèle d’extraction personnalisé, la taille totale des données d’entraînement est de 50 Mo pour le modèle et 1G-Mo pour le modèle neural.
Pour l’entraînement du modèle de classification personnalisée, la taille totale des données de formation est 1GB, avec un maximum à 10 000 pages.

Bonnes pratiques

Les modèles neuronaux personnalisés diffèrent des modèles de modèles personnalisés sur plusieurs points. Le modèle personnalisé s’appuie sur un modèle visuel cohérent pour extraire les données étiquetées. Les modèles neuronaux personnalisés prennent en charge les documents structurés, semi-structurés et non structurés pour extraire des champs. Quand vous choisissez entre les deux types de modèles, commencez avec un modèle neural, puis testez-le pour déterminer s’il répond à vos besoins fonctionnels.

Gestion des variations

Les modèles neuronaux personnalisés peuvent être généralisés dans différents formats d’un même type de document. Il est recommandé de créer un modèle unique pour toutes les variations d’un type de document. Ajoutez au moins cinq exemples étiquetés pour chacune des différentes variations du jeu de données d’apprentissage.

Dénomination de champs

Lorsque vous étiquetez les données, l’étiquetage du champ correspondant à la valeur améliore la précision des paires extraites clé-valeur. Par exemple, pour une valeur de champ contenant l’ID de fournisseur, vous pouvez nommer le champ supplier_id. Les noms de champs doivent être exprimés dans la langue du document.

Étiquetage de valeurs contiguës

Les jetons de valeur/les termes d’un champ doivent être :

Dans une séquence consécutive dans un ordre de lecture naturel sans entrelacement avec d’autres champs
Dans une région qui ne couvre aucun autre champ

Données représentatives

Les valeurs dans les cas d’apprentissage doivent être diversifiées et représentatives. Par exemple, si un champ est nommé date, les valeurs de ce champ doivent être une date. Une valeur synthétique comme une chaîne aléatoire peut affecter les performances du modèle.

Limitations actuelles

Le modèle neural personnalisé ne reconnaît pas les valeurs fractionnées au-delà des limites de la page.
Les types de champs non pris en charge sont ignorés si un jeu de données étiqueté pour des modèles personnalisés est utilisé pour effectuer l’apprentissage d’un modèle neural personnalisé.
Les modèles neuronaux personnalisés sont limités à 20 opérations de build par mois. Ouvrez une demande de support si vous avez besoin d’augmenter cette limite. Pour plus d’informations, consultez Quotas et limites du service Intelligence documentaire.

Training a model

Les modèles neuronaux personnalisés sont disponibles dans les modèles v3.0 et versions ultérieures.

Type de document	API REST	Kit SDK	Étiquetage et test des modèles
Document personnalisé	Intelligence documentaire 3.1	Kit de développement logiciel (SDK) Document Intelligence	Document Intelligence Studio

L’opération de build pour entraîner le modèle prend en charge une nouvelle propriété buildMode ; pour l’entraînement d’un modèle neuronal personnalisé, affectez la valeur buildMode à neural.

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-02-29-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

https://{endpoint}/formrecognizer/documentModels:build?api-version=v3.1:2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

https://{endpoint}/formrecognizer/documentModels/{modelId}:copyTo?api-version=2022-08-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Étapes suivantes

Apprenez à créer et à composer des modèles personnalisés :

Générer un modèle personnaliséComposer des modèles personnalisés

Modèle personnalisé Intelligence documentaire

Fonctionnalités des modèles

Mode de génération

Langues et régions prises en charge

Champs qui se chevauchent

Les champs tabulaires ajoutent la confiance de table, de ligne et de cellule

Régions prises en charge

Critères des entrées

Bonnes pratiques

Gestion des variations

Dénomination de champs

Étiquetage de valeurs contiguës

Données représentatives

Limitations actuelles

Training a model

Étapes suivantes

Ressources supplémentaires