Utiliser des modèles prédéfinis

Effectué

Tip

Pour plus d’informations, consultez l’onglet Texte et images !

Les modèles prédéfinis dans Azure Document Intelligence vous permettent d’extraire des données à partir de types de formulaires courants sans entraîner vos propres modèles. Microsoft effectue l’apprentissage de ces modèles sur un grand nombre d’exemples de documents. Vous pouvez donc vous attendre à des résultats précis et fiables pour les types de documents standard.

Modèles d’analyse de documents

Avant d’examiner les modèles prédéfinis spécifiques au domaine, il est important de comprendre les modèles d’analyse de document qui les sous-tendent.

Modèle de lecture

Le modèle de lecture extrait le texte imprimé et manuscrit à partir de documents et d’images. Il détecte la langue de chaque ligne de texte et classifie si le texte est manuscrit ou imprimé. Le modèle de lecture est utilisé comme base pour l’extraction de texte dans tous les autres modèles Document Intelligence.

Pour les fichiers PDF ou TIFF à plusieurs pages, vous pouvez utiliser le pages paramètre dans votre demande pour spécifier une plage de pages à des fins d’analyse.

Le modèle de lecture est idéal lorsque vous souhaitez extraire des mots et des lignes de documents sans structure fixe ou prévisible.

Capture d’écran montrant le modèle de lecture analysant un exemple de document dans Document Intelligence Studio.

Modèle de disposition

Le modèle de disposition étend l’extraction de texte du modèle de lecture avec la détection des marques de sélection, des tables et des informations de structure de document. Il prend également en charge une fonctionnalité facultative keyValuePairs pour extraire des paires clé-valeur.

Lorsque vous numérisez un document, il peut être incliné, ou les tableaux peuvent avoir des structures complexes comportant des cellules fusionnées ou des rangées incomplètes. Le modèle de disposition peut gérer ces difficultés. Chaque cellule du tableau est extraite avec son contenu, les coordonnées de son cadre de sélection ainsi que ses index de ligne et de colonne.

Les éléments de sélection (cases à cocher et boutons radio) sont extraits avec leur cadre de sélection, leur niveau de confiance et l’indication de leur état.

Capture d’écran montrant le modèle de disposition extrayant des tables et une structure à partir d’un exemple de document dans Document Intelligence Studio.

Note

Le modèle de document général était disponible dans les versions antérieures de Document Intelligence, mais il était déconseillé dans la 2023-10-31-preview version. Ses fonctionnalités pour l'extraction des paires clé-valeur et d'entités ont été incorporées dans le modèle de mise en page et d'autres caractéristiques.

Modèles prédéfinis pour des types de documents spécifiques

Azure Document Intelligence inclut des modèles prédéfinis formés sur des types de documents spécifiques. Les modèles prédéfinis suivants sont quelques exemples disponibles pour extraire des champs à partir de documents métier courants :

Modèle Description
Facture Extrait le nom du client, les détails du fournisseur, le numéro de bon de commande, la facture et les dates d’échéance, les adresses de facturation et d’expédition, les articles de ligne et les totaux.
Réception Extrait les détails du marchand, la date et l’heure des transactions, les éléments de ligne et les totaux. Prend en charge le traitement des reçus d'hôtel d'une seule page.
Relevé bancaire Extrait les informations de compte, les soldes de début et de fin et les détails des transactions.
Vérification Extrait les données du bénéficiaire, du montant, de la date et d'autres informations pertinentes.
Stub de paiement Permet d’extraire les salaires, heures, déductions, le salaire net et d’autres champs courants d’une fiche de paie.
Carte de crédit Extrait les informations de carte de paiement.
Contrat Extrait les informations relatives au contrat ainsi qu’aux parties concernées.

Documents fiscaux américains

Modèle Description
Taxe américaine unifiée Modèle unique qui extrait de n’importe quel type de formulaire fiscal américain pris en charge.
W-2 Extrait les détails de la rémunération imposable.
1098 et variantes Extrait les intérêts hypothécaires et les détails connexes.
1099 et variantes Extrait les revenus de diverses sources.
1040 et variantes Extrait les détails de la déclaration d’impôt sur le revenu individuel.

Documents hypothécaires américains

Modèle Description
1003 (URLA) Extrait les détails de demande de prêt.
1004 (URAR) Extrait des informations des évaluations immobilières.
1005 Extrait les données liées à la validation de l’emploi.
1008 Extrait les détails de la transmission des prêts.
Divulgation de clôture Extrait les conditions finales associées à la clôture du prêt.

Documents d’identification personnels

Modèle Description
Document d’identité Extrait les détails des permis de conduire américains, des ID de l’Union européenne et des permis de conduire et des passeports internationaux. Inclut les noms, les dates de naissance, les numéros de document et les approbations ou restrictions.
Carte d’assurance maladie Extrait les champs communs des cartes d’assurance maladie américaines.
Certificat de mariage Extrait les informations certifiées concernant le mariage.

Important

Le modèle de document d’ID extrait les informations personnelles couvertes par les lois sur la protection des données dans la plupart des juridictions. Assurez-vous que vous disposez de l’autorisation de l’individu de stocker ses données et que vous respectez toutes les exigences légales applicables.

Fonctionnalités des modèles prédéfinis

Les modèles prédéfinis sont conçus pour extraire différents types de données à partir de documents. Ces fonctionnalités sont les suivantes :

  • Extraction de texte : tous les modèles prédéfinis extraient des lignes et des mots du texte manuscrit et imprimé.
  • Paires clé-valeur : étendues de texte qui identifient une étiquette et sa réponse. Par exemple, Poids et 31 kg.
  • Marques de sélection : cases à cocher et cases d’option, y compris si elles sont sélectionnées ou non.
  • Tableaux : Données dans les cellules, y compris le nombre de colonnes et de lignes, les en-têtes de colonne et de lignes et les cellules fusionnées.
  • Champs : les modèles entraînés pour un type de formulaire spécifique identifient un ensemble fixe de champs. Par exemple, le modèle de facture extrait CustomerName et InvoiceTotal.

Quand utiliser des modèles prédéfinis et personnalisés

Les modèles prédéfinis couvrent les types de documents les plus courants. Si vous avez un type de formulaire spécifique au secteur ou unique, vous pouvez obtenir des résultats plus précis avec un modèle personnalisé. Toutefois, les modèles personnalisés nécessitent du temps et des données d'échantillon pour s'entraîner. Vérifiez toujours si un modèle prédéfini existe pour votre scénario avant d’investir dans le développement de modèles personnalisés.

En savoir plus