Modèles de traitement de documents

Article
10/16/2024

Important

Les mises en production de préversion publique Document Intelligence fournissent un accès anticipé aux fonctionnalités en cours de développement actif. Les fonctionnalités, approches et processus peuvent changer, avant la disponibilité générale (GA), en fonction des commentaires des utilisateurs.
La préversion publique des bibliothèques de client Intelligence documentaire utilise par défaut la version 2024-07-31-preview de l’API REST.
La préversion publique 2024-07-31-preview est actuellement disponible uniquement dans les régions Azure suivantes. Notez que le modèle génératif personnalisé (extraction de champ de document) dans AI Studio est disponible uniquement dans la région USA Centre Nord :
- USA Est
- USA Ouest 2
- Europe Ouest
- USA Centre Nord

Ce contenu s’applique à : v4.0 (préversion) | Versions précédentes : v3.1 (GA) v3.0 (GA) v2.1 (GA)

Ce contenu s’applique à : v3.1 (GA) | Dernière version : v4.0 (préversion) | Versions précédentes : v3.0 v2.1

Ce contenu s’applique à : v3.0 (GA) | Dernières versions : v4.0 (préversion) v3.1 | Version précédente : v2.1

Ce contenu s’applique à : v2.1 | Dernière version : v4.0 (préversion)

Azure AI Intelligence documentaire prend en charge un large éventail de modèles qui vous permettent d’ajouter un traitement de documents intelligent à vos applications et flux. Vous pouvez utiliser un modèle spécifique au domaine prédéfini ou former un modèle personnalisé adapté à vos besoins métier et cas d’usage spécifiques. Le service Intelligence documentaire peut être utilisé avec l’API REST ou les bibliothèques de client Python, C#, Java et JavaScript.

Remarque

Les projets de traitement de documents qui impliquent des données financières, des données de santé protégées, des données personnelles ou des données hautement sensibles nécessitent une attention particulière.
Veillez à respecter toutes les exigences nationales, régionales et sectorielles.

Vue d’ensemble des modèles

Le tableau suivant présente les modèles disponibles pour chaque API actuelle en préversion et stable :

Type de modèle	Modèle	• 2024-02-29-preview 2023-10-31-preview	31-07-2023 (GA)	2022-08-31 (GA)	v2.1 (GA)
Modèles d’analyse de documents	Lire	✔️	✔️	✔️	n/a
Modèles d’analyse de documents	Disposition	✔️	✔️	✔️	✔️
Modèles d’analyse de documents	Document général	déplacé vers le layout**	✔️	✔️	n/a
Modèles prédéfinis	Chèque bancaire	✔️	n/a	n/a	n/a
Modèles prédéfinis	Relevé de compte	✔️	n/a	n/a	n/a
Modèles prédéfinis	Paystub	✔️	n/a	n/a	n/a
Modèles prédéfinis	Contrat	✔️	✔️	n/a	n/a
Modèles prédéfinis	Carte d’assurance maladie	✔️	✔️	✔️	n/a
Modèles prédéfinis	Document d’identité	✔️	✔️	✔️	✔️
Modèles prédéfinis	Facture	✔️	✔️	✔️	✔️
Modèles prédéfinis	Réception	✔️	✔️	✔️	✔️
Modèles prédéfinis	Modèle fiscal américain unifié	✔️	n/a	n/a	n/a
Modèles prédéfinis	Taxe américaine 1040*	✔️	✔️	n/a	n/a
Modèles prédéfinis	Taxe américaine 1098*	✔️	n/a	n/a	n/a
Modèles prédéfinis	Taxe américaine 1099*	✔️	n/a	n/a	n/a
Modèles prédéfinis	Taxe américaine W2	✔️	✔️	✔️	n/a
Modèles prédéfinis	Hypothèque américaine 1003 URLA	✔️	n/a	n/a	n/a
Modèles prédéfinis	Prêt hypothécaire américain 1004 URAR	✔️	n/a	n/a	n/a
Modèles prédéfinis	US Mortgage 1005	✔️	n/a	n/a	n/a
Modèles prédéfinis	Hypothèque américaine 1008 – Résumé	✔️	n/a	n/a	n/a
Modèles prédéfinis	Déclaration de clôture d’un prêt hypothécaire américain	✔️	n/a	n/a	n/a
Modèles prédéfinis	Certificat de mariage	✔️	n/a	n/a	n/a
Modèles prédéfinis	Carte de crédit	✔️	n/a	n/a	n/a
Modèles prédéfinis	Carte de visite	déconseillé	✔️	✔️	✔️
Modèle de classification personnalisé	Classifieur personnalisé	✔️	✔️	n/a	n/a
Modèle génératif personnalisé	Modèle génératif personnalisé	✔️	n/a	n/a	n/a
Modèle d’extraction personnalisé	Neural personnalisé	✔️	✔️	✔️	n/a
Modèle d’extraction personnalisé	Modèle personnalisé	✔️	✔️	✔️	✔️
Modèle d’extraction personnalisé	Composé sur mesure	✔️	✔️	✔️	✔️
Tous les modèles	Fonctionnalités du module complémentaire	✔️	✔️	n/a	n/a

* - Contient des sous-modèles. Consultez les informations spécifiques au modèle pour connaître les variantes et sous-types pris en charge.

Latence

La latence est le délai nécessaire à un serveur d’API pour gérer et traiter une requête entrante et remettre la réponse sortante au client. La durée d’analyse d’un document dépend de la taille (par exemple le nombre de pages) et du contenu associé sur chaque page. Intelligence documentaire est un service multilocataire où la latence des documents similaires est comparable, mais pas toujours identique. Une variabilité occasionnelle de la latence et des performances est inhérente à tout service asynchrone basé sur les micro-services et sans état qui traite les images et les documents volumineux à grande échelle. Bien que nous puissions mettre à l’échelle en permanence le matériel, les fonctionnalités et les capacités de mise à l’échelle, il est toujours possible que vous rencontriez des problèmes de latence au moment de l’exécution.

Capacité du module complémentaire	Module complémentaire/gratuit	• 2024-02-29-preview &bullet [2023-10-31-preview](/rest/api/aiservices/operation-groups?view=rest-aiservices-v4.0%20(2024-07-31-preview)&preserve-view=true	`2023-07-31` (GA)	`2022-08-31` (GA)	v2.1 (GA)
Extraction des propriétés de la police	Module complémentaire	✔️	✔️	n/a	n/a
Extraction de formules	Module complémentaire	✔️	✔️	n/a	n/a
Extraction à haute résolution	Module complémentaire	✔️	✔️	n/a	n/a
Extraction de codes-barres	Gratuit	✔️	✔️	n/a	n/a
Détection de langue	Gratuit	✔️	✔️	n/a	n/a
Paires clé-valeur	Gratuit	✔️	n/a	n/a	n/a
Champs de requête	Module complémentaire*	✔️	n/a	n/a	n/a
PDF pouvant faire l’objet d’une recherche	Module complémentaire*	✔️	n/a	n/a	n/a

Fonctionnalités d'Analyse du modèle

ID de modèle	Extraction de contenu	Champs de requête	Paragraphes	Rôles de paragraphe	Marques de sélection	Tables	Paires clé-valeur	Langages	Codes-barres	Analyse de documents	Formules*	Police de style*	Haute résolution*	PDF pouvant faire l’objet d’une recherche
prebuilt-read	✓		✓					O	O		O	O	O	✓
prebuilt-layout	✓	✓	✓	✓	✓	✓		O	O		O	O	O
prebuilt-document	✓	✓	✓	✓	✓	✓	✓	O	O		O	O	O
prebuilt-businessCard	✓	✓								✓
prebuilt-contract	✓	✓	✓	✓			O	O	✓	✓	O	O
prebuilt-healthInsuranceCard.us	✓	✓						O	O	✓	O	O	O
prebuilt-idDocument	✓	✓						O	O	✓	O	O	O
Facture prédéfinie	✓	✓			✓	✓	O	O	O	✓	O	O	O
prebuilt-receipt	✓	✓						O	O	✓	O	O	O
prebuilt-marriageCertificate.us	✓	✓						O	O	✓	O	O	O
prebuilt-creditCard	✓	✓						O	O	✓	O	O	O
prebuilt-check.us	✓	✓						O	O	✓	O	O	O
prebuilt-payStub.us	✓	✓						O	O	✓	O	O	O
prebuilt-bankStatement	✓	✓						O	O	✓	O	O	O
prebuilt-mortgage.us.1003	✓	✓						O	O	✓	O	O	O
prebuilt-mortgage.us.1004	✓	✓						O	O	✓	O	O	O
prebuilt-mortgage.us.1005	✓	✓						O	O	✓	O	O	O
prebuilt-mortgage.us.1008	✓	✓						O	O	✓	O	O	O
prebuilt-mortgage.us.closingDisclosure	✓	✓						O	O	✓	O	O	O
prebuilt-tax.us	✓	✓			✓			O	O	✓	O	O	O
prebuilt-tax.us.w2	✓	✓			✓			O	O	✓	O	O	O
prebuilt-tax.us.1098	✓	✓			✓			O	O	✓	O	O	O
prebuilt-tax.us.1098E	✓	✓			✓			O	O	✓	O	O	O
prebuilt-tax.us.1098T	✓	✓			✓			O	O	✓	O	O	O
prebuilt-tax.us.1099(variations)	✓	✓			✓			O	O	✓	O	O	O
prebuilt-tax.us.1040(variations)	✓	✓						O	O	✓	O	O	O
{ customModelName }	✓	✓	✓	✓	✓	✓		O	O	✓	O	O	O

✓ - Activé
O - Facultatif
* - Les fonctionnalités Premium entraînent des coûts supplémentaires

Module complémentaire* : les champs de requête sont facturés différemment des autres fonctionnalités du module complémentaire. Pour en savoir plus, voir les tarifs.

Coordonnées de rectangle englobant et de polygone

Un rectangle englobant (polygon dans v3.0 et les versions ultérieures) est un rectangle abstrait qui entoure des éléments de texte d’un document et qui est utilisé comme point de référence pour la détection d’objets.

Le cadre englobant spécifie la position à l’aide d’un plan de coordonnées x et y présenté dans un tableau de quatre paires numériques. Chaque paire représente un coin de la zone dans l’ordre suivant : supérieur gauche, supérieur droit, inférieur droit, inférieur gauche.
Les coordonnées d’image sont présentées en pixels. Pour un fichier PDF, les coordonnées sont présentées en pouces.

Pour tous les modèles, à l’exception du modèle Carte de visite, Intelligence documentaire prend désormais en charge les fonctionnalités de module complémentaire pour permettre une analyse plus sophistiquée. Ces fonctionnalités facultatives peuvent être activées et désactivées selon le scénario d’extraction de documents. Sept fonctionnalités de module complémentaire sont disponibles pour 2023-07-31 (GA) et la version ultérieure de l’API :

ocrHighResolution
formulas
styleFont
barcodes
languages
keyValuePairs (2024-02-29-preview, 2023-10-31-preview)
queryFields (2024-02-29-preview, 2023-10-31-preview) Not available with the US.Tax models
searchablePDF (2024-07-31-preview) Only available for Read Model

Support multilingue

Les modèles universels basés sur le Deep Learning dans Intelligence documentaire prennent en charge de nombreuses langues pour extraire du texte multilingue de vos images et documents, y compris des lignes de texte mêlant plusieurs langues. La prise en charge des langues varie selon les fonctionnalités du service Intelligence documentaire. Pour obtenir une liste complète, consultez les articles suivants :

Disponibilité régionale

Intelligence documentaire est en disponibilité générale dans un grand nombre des plus de 60 régions d’infrastructure globale Azure.

Pour plus d’informations, consultez notre page zones géographiques Azure pour vous aider à choisir la région qui vous convient le mieux et vos clients.

Détails du modèle

Cette section décrit la sortie que vous pouvez attendre de chaque modèle. Vous pouvez étendre la sortie de la plupart des modèles avec des fonctionnalités de module complémentaire.

Lire OCR

L’API Read analyse et extrait les lignes, les mots, leur emplacement, les langues détectées et le style manuscrit s’il est détecté.

Exemple de document traité à l’aide du studio Intelligence documentaire :

Capture d’écran d’un exemple de document traité à l’aide de la lecture du studio Intelligence documentaire

Pour plus d’informations, modèle Read

Analyse de disposition

Le modèle d’analyse de la disposition analyse et extrait du texte, des tableaux, des marques de sélection et d’autres éléments de structure tels que les titres, les en-têtes de section, les en-têtes de page, les pieds de page, etc.

Exemple de document traité à l’aide du studio Intelligence documentaire :

Capture d’écran d’un exemple de page de journal traitée à l’aide du studio Intelligence documentaire.

En savoir plus : Modèle de disposition

Carte d’assurance maladie

Le modèle de carte d’assurance maladie combine de puissantes capacités de reconnaissance optique de caractères (OCR) à des modèles Deep Learning pour analyser et extraire des informations clés depuis des images de cartes d’assurance maladie.

Exemple de carte d’assurance maladie américaine traitée à l’aide de Studio Intelligence documentaire :

En savoir plus : Modèle de carte d’assurance maladie

Documents fiscaux américains

Les modèles de documents fiscaux américains analysent et extraient les champs clés et les éléments de ligne d’un groupe sélectionné de documents fiscaux. L’API prend en charge l’analyse des documents fiscaux américains en langue anglaise et de différents formats et différentes qualités, y compris les images capturées par téléphone, les documents numérisés et les fichiers PDF numériques. Les modèles suivants sont pris en charge :

Modèle	Description	ModelID
US Tax W-2	Extraire les détails de la rémunération imposable.	prebuilt-tax.us.w2
Taxe américaine 1040	Extraire les détails des intérêts hypothécaires.	prebuilt-tax.us.1040(variations)
US Tax 1098	Extraire les détails des intérêts hypothécaires.	prebuilt-tax.us.1098(variations)
Taxe américaine 1099	Extrayez les revenus provenant d’autres sources que l’employeur.	prebuilt-tax.us.1099(variations)

Exemple de document W-2 traité à l’aide de Studio Intelligence documentaire :

Capture d’écran d’un échantillon W-2.

En savoir plus : Modèles de documents fiscaux

Documents hypothécaires américains

Les modèles de documents hypothécaires américains analysent et extraient les champs clés, y compris les informations sur l’emprunteur, le prêt et les biens d’un groupe sélectionné de documents hypothécaires. L’API prend en charge l’analyse des documents hypothécaires américains en langue anglaise et de différents formats et différentes qualités, y compris les images capturées par téléphone, les documents numérisés et les fichiers PDF numériques. Les modèles suivants sont pris en charge :

Modèle	Description	ModelID
1003 Contrat de licence utilisateur final (CLUF)	Extrayez les détails relatifs au prêt, à l’emprunteur et à la propriété.	prebuilt-mortgage.us.1003
Document de synthèse 1008	Extrayez les détails relatifs à l’emprunteur, au vendeur, à la propriété, à l’hypothèque et à la souscription.	prebuilt-mortgage.us.1008
Divulgation de clôture	Extrayez les détails relatifs à la clôture, aux coûts de transaction et au prêt.	prebuilt-mortgage.us.closingDisclosure
Certificat de mariage	Extrayez les informations sur le mariage pour les demandeurs de prêts conjoints.	prebuilt-marriageCertificate
US Tax W-2	Extrayez les détails de la rémunération imposable pour la vérification du revenu.	prebuilt-tax.us.w2

Exemple de document de divulgation traité à l’aide de Document Intelligence Studio :

Capture d’écran d’un exemple de divulgation de clôture.

En savoir plus : Modèles de documents hypothécaires

Contrat

Le modèle de contrat analyse et extrait les champs clés et les éléments de ligne contractuels, y compris les parties, les juridictions, l’ID de contrat et le titre. Le modèle prend actuellement en charge les contrats de document en anglais.

Exemple de contrat traité à l’aide de Studio Intelligence documentaire :

Capture d’écran de l’extraction d’un modèle de contrat à l’aide de Studio Intelligence Documentaire.

En savoir plus : Modèle de contrat

Facture

Le modèle de facture automatise le traitement des factures pour extraire le nom du client, l’adresse de facturation, la date d’échéance et le montant dû, les articles et autres données clés. Actuellement, le modèle prend en charge les factures en anglais, espagnol, allemand, français, italien, portugais et néerlandais.

Exemple de facture traitée à l’aide de Studio Intelligence documentaire :

En savoir plus : Modèle de facture

Réception

Utilisez le modèle de reçu pour analyser les reçus de vente afin d’extraire le nom du prestataire, les dates, les éléments de ligne, les quantités et les totaux de reçus imprimés et manuscrits. La version v3.0 prend également en charge le traitement de reçus d’hôtel monopages.

Exemple de reçu traité à l’aide de Studio Intelligence documentaire :

En savoir plus : Modèle de reçu

Document d’identité (ID)

Utilisez le modèle de document d’identité (ID) pour traiter des permis de conduire américains (50 États et District de Columbia) et des pages biographiques des passeports internationaux (à l’exclusion des visas et autres documents de voyage) afin d’extraire des champs clés.

Exemple de permis de conduire des États-Unis traité à l’aide de Studio Intelligence documentaire :

En savoir plus : Modèle de document d’identité

Certificat de mariage

Utilisez le modèle de certificat de mariage pour traiter les certificats de mariage américains pour extraire les champs clés, y compris les individus, la date et l’emplacement.

Exemple de certificat de mariage américain traité à l’aide de Document Intelligence Studio :

En savoir plus : Modèle de document d’identité

Carte de crédit

Utilisez le modèle de carte de crédit pour traiter les cartes de crédit et de débit pour extraire les champs clés.

Exemple d’une carte de crédit traitée à l’aide de Document Intelligence Studio :

En savoir plus : Modèle de document d’identité

Modèles personnalisés

Les modèles personnalisés peuvent être largement classés en deux types. Modèles de classification personnalisés qui prennent en charge la classification d’un « type de document » et de modèles d’extraction personnalisés qui peuvent extraire un schéma défini à partir d’un type de document spécifique.

Diagramme des types de modèles personnalisés et des modes de génération de modèles associés.

Les modèles de documents personnalisés analysent et extraient les données de formulaires et de documents spécifiques à votre entreprise. Ils reconnaissent les champs de formulaire dans votre contenu distinct et extraient des paires clé-valeur et des données de table. Vous n’avez besoin que d’un exemple de type de formulaire pour commencer.

Le modèle personnalisé de la version v3.0 et ultérieures prend en charge la détection des signatures dans les modèles personnalisés (formulaire) et les tables multipage dans les modèles et les modèles neuronaux. La détection de signature recherche la présence d’une signature, et non l’identité de la personne qui signe le document. Si le modèle retourne non signé pour la détection de signature, cela signifie qu’il n’a pas trouvé de signature dans le champ défini.

Exemple de modèle personnalisé traité à l’aide de Studio Intelligence documentaire :

Capture d’écran de la fenêtre d’analyse d’un formulaire personnalisé de l’outil Intelligence documentaire.

En savoir plus : Modèle personnalisé

Extraction personnalisée

Le modèle d’extraction personnalisé peut être de deux types : modèle personnalisé ou neural personnalisé. Pour créer un modèle d’extraction personnalisé, étiquetez un jeu de données de documents avec les valeurs que vous souhaitez extraire et effectuer l’apprentissage du modèle sur le jeu de données étiqueté. Vous n’avez besoin pour commencer que de cinq exemples du même type de formulaire ou de document.

Exemple d’extraction personnalisée traitée à l’aide de Studio Intelligence documentaire :

Capture d’écran de l’analyse du modèle d’extraction personnalisée dans Studio Intelligence documentaire.

En savoir plus : Modèle de modèle personnalisé

En savoir plus : Modèle neural personnalisé

Classifieur personnalisé

Le modèle de classification personnalisé vous permet d’identifier le type de document avant d’appeler le modèle d’extraction. Le modèle de classification est disponible à partir de l’API2023-07-31 (GA). L’apprentissage d’un modèle de classification personnalisé nécessite au moins deux classes distinctes et un minimum de cinq exemples par classe.

En savoir plus : Modèle de classification personnalisé

Modèles composés

Pour créer un modèle composé, vous associez une collection de modèles personnalisés à un modèle unique créé à partir de vos types de formulaire. Il est possible d’affecter plusieurs modèles personnalisés à un modèle composé qui est appelé avec un ID de modèle unique. Il est possible d’attribuer jusqu’à 200 modèles personnalisés entraînés à un même modèle composé.

Fenêtre de dialogue de modèle composé dans Studio Intelligence documentaire :

Capture d'écran de la fenêtre de dialogue de composition d'un modèle personnalisé du studio Intelligence documentaire.

En savoir plus : Modèle personnalisé

Critères des entrées

Formats de fichiers pris en charge :

Modèle	PDF	Image : `JPEG/JPG`, `PNG`, `BMP`, `TIFF`, `HEIF`	Microsoft Office : Word (`DOCX`), Excel (`XLSX`), PowerPoint (`PPTX`), HTML
Lire	✔	✔	✔
Layout	✔	✔	✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
Document général	✔	✔
Prédéfinie	✔	✔
Extraction personnalisée	✔	✔
Classification personnalisée	✔	✔	✔ (2024-07-31-preview, 2024-02-29-preview)

Pour de meilleurs résultats, fournissez une photo nette ou une copie de qualité par document.
Pour les PDF et TIFF, jusqu'à 2 000 pages peuvent être traitées (avec un abonnement gratuit, seules les deux premières pages sont traitées).
La taille de fichier pour l’analyse de documents est de 500 Mo pour le niveau payant (S0) et de 4 Mo pour le niveau gratuit (F0).
Les dimensions de l’image doivent être comprises entre 50 pixels x 50 pixels et 10 000 pixels x 10 000 pixels.
Si vos fichiers PDF sont verrouillés par mot de passe, vous devez supprimer le verrou avant leur envoi.
La hauteur minimale du texte à extraire est de 12 pixels pour une image de 1024 x 768 pixels. Cette dimension correspond environ à un texte de 8 points à 150 points par pouce (ppp).
Pour la formation de modèles personnalisés, le nombre maximal de pages pour les données de formation est de 500 pour le modèle personnalisé et 50 000 pour le modèle neural personnalisé.
- Pour l’apprentissage du modèle d’extraction personnalisé, la taille totale des données d’entraînement est de 50 Mo pour le modèle de gabarit et de 1 Go pour le modèle neuronal.
- Pour l’apprentissage du modèle de classification personnalisé, la taille totale des données d’entraînement est de 1 Go, avec un maximum de 10 000 pages. Pour 2024-07-31-preview et les versions ultérieures, la taille totale des données de formation est de 2 Go, avec un maximum de 10 000 pages.

Remarque

L’outil d’étiquetage des exemples ne prend pas en charge le format de fichier BMP. Il s’agit d’une limite de l’outil et non du service d’Intelligence documentaire.

Migration de version

Découvrez comment utiliser Intelligence documentaire v3.0 dans vos applications en suivant notre guide de migration Intelligence documentaire v3.1

Modèle	Description
Analyse de documents
Disposition	Extrait des informations sur le texte et la disposition à partir de documents.
Prédéfinie
Facture	Extrait des informations clés de factures en anglais et espagnol.
Réception	Extrait des informations clés de reçus en anglais.
Document d’identité	Extrait des informations clés de permis de conduire américains et de passeports internationaux.
Carte de visite	Extrait des informations clés de cartes de visite en anglais.
Personnalisée
Personnalisée	Extrait des données de formulaires et de documents spécifiques à votre entreprise. Les modèles personnalisés sont entraînés pour vos données et cas d’usage spécifiques.
Composé	Composez une collection de modèles personnalisés et attribuez-les à un modèle unique généré à partir de vos types de formulaires.

Layout

L’API de disposition analyse et extrait du texte, des tableaux, des en-têtes, des marques de sélection et des informations de structure à partir de documents.

Exemple de document traité avec l’outil d’étiquetage d’échantillon :

Capture d’écran de l’analyse de la « disposition » avec l’outil d’étiquetage d’échantillon.

En savoir plus : Modèle de disposition