Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Ce contenu s’applique à :
v4.0 (GA) | Versions antérieures :
v3.1 (GA)
v3.0 (retrait)
v2.1 (mise hors service)
Ce contenu s’applique à :
v3.0 (mise hors service) | Versions les plus récentes:
v4.0 (Disponibilité générale)
v3.1 | Version antérieure :
v2.1 (mise hors service)
Ce contenu s’applique à :
v2.1 | Dernière version :
v4.0 (GA)
Le modèle personnalisé (anciennement formulaire personnalisé) est un modèle de document facile à entraîner qui extrait avec précision des paires clé-valeur étiquetées, des marques de sélection, des tables, des régions et des signatures à partir de documents. Les modèles modèles utilisent des indicateurs de disposition pour extraire des valeurs de documents et sont adaptés pour extraire des champs de documents hautement structurés avec des modèles visuels définis.
Les modèles de modèle personnalisés partagent le même format d’étiquetage et la même stratégie que les modèles neuronaux personnalisés, avec prise en charge d’autres types de champs et langages.
Fonctionnalités de modèle
Les modèles de modèle personnalisés prennent en charge les paires clé-valeur, les marques de sélection, les tables, les champs de signature et les régions sélectionnées.
| Champs de formulaire | Marques de sélection | Champs tabulaires (Tables) | Signature | Régions sélectionnées | Champs qui se chevauchent |
|---|---|---|---|---|---|
| Soutenu | Soutenu | Soutenu | Soutenu | Soutenu | Non pris en charge |
Champs tabulaires
Avec les versions d’API v3.0 et ultérieures, les modèles personnalisés ajoutent la prise en charge des champs tabulaires traversant les pages (tables) :
- Pour étiqueter une table qui s’étend sur plusieurs pages, étiquetez chaque ligne de la table sur les différentes pages d’une seule table.
- En guise de meilleure pratique, assurez-vous que votre jeu de données contient quelques exemples des variations attendues. Par exemple, incluez des exemples dans lesquels la table entière se trouve sur une seule page et où les tables s’étendent sur deux pages ou plus si vous prévoyez de voir ces variations dans les documents.
Les champs tabulaires sont également utiles lors de l’extraction d’informations répétées dans un document qui n’est pas reconnu comme une table. Par exemple, une section répétée d’expériences de travail dans un cv peut être étiquetée et extraite en tant que champ tabulaire.
Gestion des variations
Les modèles de modèle s’appuient sur un modèle visuel défini, les modifications apportées au modèle entraînent une précision inférieure. Dans ces cas, fractionnez votre jeu de données d’entraînement pour inclure au moins cinq exemples de chaque modèle et entraîner un modèle pour chacune des variantes. Vous pouvez ensuite composer les modèles en un seul point de terminaison. Pour les variantes subtiles, telles que les documents et images PDF numériques, il est préférable d’inclure au moins cinq exemples de chaque type dans le même jeu de données d’entraînement.
Exigences en matière d’entrée
Pour obtenir de meilleurs résultats, fournissez une photo claire ou une analyse de haute qualité par document.
Formats de fichiers pris en charge :
Modèle PDF Image :
JPEG/JPG,PNGBMP,TIFF,HEIFMicrosoft Office :
Word (DOCX), Excel (XLSX), PowerPoint (PPTX) et HTMLLire ✔ ✔ ✔ Mise en page ✔ ✔ ✔ Document général ✔ ✔ Préassemblé ✔ ✔ Personnalisé ✔ ✔ ✱ Les fichiers Microsoft Office ne sont actuellement pas pris en charge pour d'autres modèles ou d'autres versions.
Pour PDF et TIFF, jusqu’à 2 000 pages peuvent être traitées (avec un abonnement de niveau gratuit, seules les deux premières pages sont traitées).
La taille de fichier pour l’analyse des documents est de 500 Mo pour le niveau payant (S0) et de 4 Mo pour le niveau gratuit (F0).
Les dimensions de l’image doivent être comprises entre 50 x 50 pixels et 10 000 px x 10 000 pixels.
Si vos fichiers PDF sont verrouillés par mot de passe, vous devez supprimer le verrou avant la soumission.
La hauteur minimale du texte à extraire est de 12 pixels pour une image de 1 024 x 768 pixels. Cette dimension correspond à environ
8points de texte à 150 points par pouce (DPI).Pour l’entraînement de modèle personnalisé, le nombre maximal de pages pour les données d’apprentissage est de 500 pour le modèle de modèle personnalisé et 50 000 pour le modèle neuronal personnalisé.
Pour l’entraînement de modèle d’extraction personnalisé, la taille totale des données d’entraînement est de 50 Mo pour le modèle de gabarit et de 1 Go pour le modèle neuronal.
Pour l’entraînement du modèle de classification personnalisé, la taille totale des données d’apprentissage est
1GBde 10 000 pages maximum.
Formation d’un modèle
Les modèles de modèle personnalisés sont généralement disponibles à partir de l’API v2.0 et des versions ultérieures. Si vous commencez par un nouveau projet ou que vous disposez d’un jeu de données étiqueté existant, utilisez l’API v3.1 ou v3.0 avec Document Intelligence Studio pour entraîner un modèle personnalisé.
| Modèle | REST API | SDK | Étiquettes et modèles de test |
|---|---|---|---|
| Modèle personnalisé | API v3.1 | Kit de développement logiciel (SDK) Document Intelligence | Document Intelligence Studio |
Avec les API v3.0 et versions ultérieures, l’opération de build pour entraîner le modèle prend en charge une nouvelle propriété buildMode ; pour l’entraînement d’un modèle personnalisé, affectez la valeur buildMode à template.
https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-11-30
{
"modelId": "string",
"description": "string",
"buildMode": "template",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
Les modèles personnalisés sont généralement disponibles avec l’API v3.1. Si vous commencez un nouveau projet ou que vous disposez d’un jeu de données étiqueté existant, utilisez l’API v3.1 ou v3.0 avec Document Intelligence Studio pour entraîner un modèle personnalisé.
| Modèle | REST API | SDK | Étiquettes et modèles de test |
|---|---|---|---|
| Modèle personnalisé | API v3.1 | Kit de développement logiciel (SDK) Document Intelligence | Document Intelligence Studio |
Avec les API v3.0 et ultérieures, l’opération de génération pour entraîner un modèle prend en charge une nouvelle buildMode propriété. Pour entraîner un modèle personnalisé, définissez buildMode à template.
https://{endpoint}/formrecognizer/documentModels:build?api-version=2023-07-31
{
"modelId": "string",
"description": "string",
"buildMode": "template",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
Langues et paramètres régionaux pris en charge
Pour obtenir la liste complète des langues prises en charge, consultez notre page Prise en charge des modèles personnalisés .
Les modèles personnalisés sont généralement disponibles avec l’API v2.1.
| Modèle | REST API | SDK | Étiquettes et modèles de test |
|---|---|---|---|
| Modèle personnalisé (modèle) | Document Intelligence 2.1 | Kit de développement logiciel (SDK) Document Intelligence | Outil d’étiquetage d’exemple Document Intelligence |
Étapes suivantes
Découvrez comment créer et composer des modèles personnalisés :