Partage via


Modèle de facture Intelligence Documentaire

Important

  • Les mises en production de préversion publique Document Intelligence fournissent un accès anticipé aux fonctionnalités en cours de développement actif. Les fonctionnalités, approches et processus peuvent changer, avant la disponibilité générale (GA), en fonction des commentaires des utilisateurs.
  • La préversion publique des bibliothèques de client Intelligence documentaire utilise par défaut la version 2024-07-31-preview de l’API REST.
  • La préversion publique 2024-07-31-preview est actuellement disponible uniquement dans les régions Azure suivantes. Notez que le modèle génératif personnalisé (extraction de champ de document) dans AI Studio est disponible uniquement dans la région USA Centre Nord :
    • USA Est
    • USA Ouest 2
    • Europe Ouest
    • USA Centre Nord 

Ce contenu s’applique à : coche v4.0 (préversion) | Versions précédentes : coche-bleue v3.1 (GA) coche-bleue v3.0 (GA) coche-bleue v2.1 (GA)

Ce contenu s’applique à : coche v3.1 (GA) | Dernière version : coche violette v4.0 (préversion) | Versions précédentes : coche-bleue v3.0 coche-bleue v2.1

Ce contenu s’applique à : coche v3.0 (GA) | Dernières versions : coche violette v4.0 (préversion) coche-violette v3.1 | Version précédente : coche-bleue v2.1

Ce contenu s’applique à : coche v2.1 | Dernière version : Coche bleue v4.0 (préversion)

Le modèle de facture d’Intelligence documentaire utilise de puissantes capacités de reconnaissance optique de caractères (OCR) pour analyser et extraire les champs clés et les éléments de ligne des factures de vente, des factures de service et des bons de commande. Les factures peuvent être de formats et de qualités divers, notamment des images capturées par téléphone, des documents numérisés et des fichiers PDF. L’API analyse le texte de la facture, extrait les informations clés, telles que le nom du client, l’adresse de facturation, la date d’échéance et le montant dû, et renvoie une représentation structurée des données JSON. Le modèle prend actuellement en charge les factures en 27 langues.

Types de documents pris en charge :

  • Factures
  • Factures de service
  • Commandes client
  • Bons de commande

Traitement automatisé des factures

Le processus de traitement automatisé des factures consiste à extraire les champs accounts payable clés des documents de facturation. Les données extraites incluent des éléments de ligne à partir de factures intégrées à vos workflows de comptes fournisseurs (AP) pour les révisions et les paiements. Historiquement, le processus de gestion des comptes créditeurs était effectué manuellement et prenait donc beaucoup de temps. L’extraction précise des données clés à partir de factures est généralement la première et l’une des étapes les plus critiques du processus d’automatisation des factures.

Exemple de facture traitée avec le Studio d’Intelligence documentaire :

Capture d’écran d’un exemple de facture analysée dans le Studio d’Intelligence documentaire.

Exemple d’une facture traitée avec l’outil d’Étiquetage des exemples d’Intelligence documentaire :

Capture d’écran d’un exemple de facture.

Options de développement

Intelligence documentaire v4.0 (2024-07-31-preview) prend en charge les outils, applications et bibliothèques suivants :

Fonctionnalité Ressources ID de modèle
Modèle de facture Document Intelligence Studio
API REST
Kit de développement logiciel (SDK) C#
Kit de développement logiciel (SDK) Python
Kit de développement logiciel (SDK) Java
Kit de développement logiciel (SDK) JavaScript
Facture prédéfinie

Intelligence documentaire v3.1 prend en charge les outils, applications et bibliothèques suivants :

Fonction Ressources ID de modèle
Modèle de facture Document Intelligence Studio
API REST
Kit de développement logiciel (SDK) C#
Kit de développement logiciel (SDK) Python
Kit de développement logiciel (SDK) Java
Kit de développement logiciel (SDK) JavaScript
Facture prédéfinie

Intelligence documentaire v3.0 prend en charge les outils, applications et bibliothèques suivants :

Fonction Ressources ID de modèle
Modèle de facture Document Intelligence Studio
API REST
Kit de développement logiciel (SDK) C#
Kit de développement logiciel (SDK) Python
Kit de développement logiciel (SDK) Java
Kit de développement logiciel (SDK) JavaScript
Facture prédéfinie

Intelligence documentaire v2.1 prend en charge les outils, applications et bibliothèques suivants :

Fonction Ressources
Modèle de facture ● Outil d’étiquetage Intelligence Documentaire
API REST
Kit de développement logiciel (SDK) Bibliothèque client
Intelligence Documentaire Conteneur Docker

Critères des entrées

  • Formats de fichiers pris en charge :

    Modèle PDF Image :
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office :
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
    Lire
    Layout ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
    Document général
    Prédéfinie
    Extraction personnalisée
    Classification personnalisée ✔ (2024-07-31-preview, 2024-02-29-preview)
  • Pour de meilleurs résultats, fournissez une photo nette ou une copie de qualité par document.

  • Pour les PDF et TIFF, jusqu'à 2 000 pages peuvent être traitées (avec un abonnement gratuit, seules les deux premières pages sont traitées).

  • La taille de fichier pour l’analyse de documents est de 500 Mo pour le niveau payant (S0) et de 4 Mo pour le niveau gratuit (F0).

  • Les dimensions de l’image doivent être comprises entre 50 pixels x 50 pixels et 10 000 pixels x 10 000 pixels.

  • Si vos fichiers PDF sont verrouillés par mot de passe, vous devez supprimer le verrou avant leur envoi.

  • La hauteur minimale du texte à extraire est de 12 pixels pour une image de 1024 x 768 pixels. Cette dimension correspond environ à un texte de 8 points à 150 points par pouce (ppp).

  • Pour la formation de modèles personnalisés, le nombre maximal de pages pour les données de formation est de 500 pour le modèle personnalisé et 50 000 pour le modèle neural personnalisé.

    • Pour l’apprentissage du modèle d’extraction personnalisé, la taille totale des données d’entraînement est de 50 Mo pour le modèle de gabarit et de 1 Go pour le modèle neuronal.

    • Pour l’apprentissage du modèle de classification personnalisé, la taille totale des données d’entraînement est de 1 Go, avec un maximum de 10 000 pages. Pour 2024-07-31-preview et versions ultérieures, la taille totale des données d’apprentissage est de 2 Go, avec un maximum de 10 000 pages.

  • Formats de fichiers pris en charge : JPEG, PNG, PDF et TIFF.
  • PDF et TIFF pris en charge, jusqu’à 2 000 pages sont traitées. Abonnés du niveau Gratuit : seules les deux premières pages sont traitées.
  • La taille du fichier pris en charge doit être inférieure à 50 Mo, et les dimensions doivent être comprises entre 50 × 50 pixels et 10 000 × 10 000 pixels.

Extraction de données de modèle de facture

Découvrez comment les données, y compris les informations sur les clients, les détails du fournisseur et les articles, sont extraites des factures. Vous avez besoin des ressources suivantes :

  • Un abonnement Azure. Vous pouvez en créer un gratuitement.

  • Instance Intelligence documentaire dans le Portail Azure. Vous pouvez utiliser le niveau tarifaire gratuit (F0) pour tester le service. Une fois votre ressource déployée, sélectionnez Accéder à la ressource pour accéder à la clé et au point de terminaison.

Capture d’écran de l’emplacement des clés et des points de terminaison dans le Portail Azure.

  1. Dans la page d’accueil Document Intelligence Studio, sélectionnez Factures.

  2. Vous pouvez analyser l’exemple de facture ou charger vos propres fichiers.

  3. Sélectionnez le bouton Exécuter l’analyse et, si nécessaire, configurez les Options d’analyse :

    Capture d’écran des boutons Exécuter l’analyse et Options d’analyse dans Document Intelligence Studio.

Outil d’étiquetage d’exemples d’Intelligence documentaire

  1. Accédez à l’outil d’exemples Document Intelligence.

  2. Dans la page d’accueil de l’outil d’étiquetage d’échantillon, sélectionnez la vignette Utiliser un modèle prédéfini pour obtenir des données.

    Capture d’écran du processus d’analyse des résultats du modèle de disposition.

  3. Sélectionnez le Type de formulaire à analyser dans le menu déroulant.

  4. Choisissez un URL pour le fichier que vous souhaitez analyser à partir des options ci-dessous :

  5. Dans le champ Source, sélectionnez URL dans le menu déroulant, collez l’URL sélectionnée, puis sélectionnez le bouton Récupérer.

    Capture d'écran du menu déroulant de l'emplacement de la source.

  6. Dans le champ Point de terminaison du service Document Intelligence, collez le point de terminaison que vous avez obtenu avec votre abonnement Document Intelligence.

  7. Dans le champ Clé, collez la clé que vous avez obtenue de votre ressource Document Intelligence.

    Capture d’écran montrant le menu déroulant sélectionner un type de formulaire.

  8. Cliquez sur Exécuter l’analyse. L’outil d’étiquetage des exemples d’Intelligence Documentaire appelle l’API Analyze Prebuilt et analyse le document.

  9. Afficher les résultats : consultez les paires clé-valeur extraites, les articles, le texte mis en évidence extrait et les tableaux détectés.

    Capture d’écran de l’opération d’analyse des résultats du modèle de disposition.

Notes

L’outil d’étiquetage des exemples ne prend pas en charge le format de fichier BMP. Il s’agit d’une limite de l’outil et non du service d’Intelligence documentaire.

Langues et régions prises en charge

Pour obtenir la liste complète des langues prises en charge, consultez notre page Prise en charge des langues du modèle prédéfini.

Extraction de champ

  • Pour connaître les champs d’extraction de documents pris en charge, reportez-vous à la page Schéma du modèle de facture dans notre référentiel d’exemples GitHub.

  • Les paires clé-valeur et les éléments de ligne de facture extraits se trouvent dans la section documentResults de la sortie JSON.

Paires clé-valeur

La facture prédéfinie 2022-06-30 et versions ultérieures prend en charge le retour facultatif des paires clé-valeur. Par défaut, le retour des paires clé-valeur est désactivé. Les paires clé-valeur sont des portions spécifiques dans la facture qui identifient une étiquette ou une clé, ainsi que la réponse ou la valeur associée. Dans une facture, ces paires peuvent être l’étiquette et la valeur saisie par l’utilisateur pour ce champ ou ce numéro de téléphone. Le modèle d’IA est formé à l’extraction des clés et des valeurs identifiables à partir d’une grande variété de types, de formats et de structures de documents.

Les clés peuvent également exister de manière isolée lorsque le modèle détecte qu’une clé existe sans valeur associée ou lors du traitement de champs facultatifs. Par exemple, le champ du second prénom peut être laissé vide sur un formulaire dans certains cas. Les paires clé-valeur sont toujours des étendues de texte contenues dans le document. Si, dans certains documents, la même valeur est décrite de plusieurs manières, par exemple client/utilisateur, la clé associée est soit client, soit utilisateur (en fonction du contexte).

Champs extraits

Le service de facture extrait le texte, les tables, ainsi que 26 champs de facture. Voici les champs extraits d’une facture dans la réponse de sortie JSON (la sortie suivante utilise cet exemple de facture).

Nom Type Description Texte Valeur (sortie standardisée)
CustomerName string Client destinataire de la facture Microsoft Corp
CustomerId string ID de référence du client CID-12345
PurchaseOrder string Numéro de référence du bon de commande PO-3333
InvoiceId string ID de cette facture (souvent appelé « numéro de facture ») INV-100
InvoiceDate Date Date d’émission de la facture 15/11/2019 2019-11-15
DueDate Date Date d’échéance du paiement de cette facture 15/12/2019 2019-12-15
VendorName string Fournisseur qui a créé la facture CONTOSO
VendorAddress string Adresse postale du fournisseur 123 456th St New York, NY, 10001
VendorAddressRecipient string Nom associé à l’adresse postale du fournisseur Siège social de Contoso
CustomerAddress string Adresse postale du client 123 Other Street, Redmond, Washington, 98052
CustomerAddressRecipient string Nom associé à l’adresse postale du client Microsoft Corp
BillingAddress string Adresse de facturation explicite du client 123 Bill Street, Redmond, Washington, 98052
BillingAddressRecipient string Nom associé à l’adresse de facturation Services Microsoft
ShippingAddress string Adresse d’expédition explicite du client 123 Ship Street, Redmond, Washington, 98052
ShippingAddressRecipient string Nom associé à l’adresse d’expédition Livraison Microsoft
Sous-total nombre Champ de sous-total identifié sur cette facture 100,00 $ 100
TotalTax nombre Champ du total des taxes identifié sur cette facture 10,00 $ 10
InvoiceTotal nombre Total des nouveaux frais associés à cette facture 110,00 $ 110
AmountDue nombre Montant total dû au fournisseur 610,00 $ 610
ServiceAddress string Adresse du service ou de la propriété explicite du client 123 Service Street, Redmond, Washington, 98052
ServiceAddressRecipient string Nom associé à l’adresse du service Services Microsoft
RemittanceAddress string Adresse d’envoi du paiement explicite pour le client 123 Remit St New York, NY, 10001
RemittanceAddressRecipient string Nom associé à l’adresse d’envoi du paiement explicite Facturation Contoso
ServiceStartDate Date Date de début de la période de service (par exemple, pour une période de service de facturation d’utilitaire) 14/10/2019 2019-10-14
ServiceEndDate Date Date de fin de la période de service (par exemple, pour une période de service de facturation d’utilitaire) 14/11/2019 2019-11-14
PreviousUnpaidBalance nombre Solde précédent impayé explicite 500,00 $ 500

Voici les éléments de ligne extraits d’une facture dans la réponse de sortie JSON (avec cet exemple de facture) :

Nom Type Description Texte (élément de ligne no 1) Valeur (sortie standardisée)
Éléments string Texte complet de l’élément de ligne 04/03/2021 A123 Services de conseil 2 heures 30,00 $ 10 % 60,00 $
Montant nombre Montant de l’élément de ligne 60,00 $ 100
Description string Description textuelle de l’élément de ligne de la facture Service de conseil Service de conseil
Quantité nombre Quantité pour cet élément de ligne de la facture 2 2
UnitPrice nombre Prix net ou brut (en fonction du paramètre de facturation brute de la facture) d’une unité de cet élément 30,00 $ 30
ProductCode string Code du produit, numéro de produit ou référence SKU associé à l’élément de ligne spécifique A123
Unité string L’unité de l’élément de ligne (par exemple : kg, lb, etc.) heures
Date date Date correspondant à chaque élément de ligne. Il s’agit souvent de la date d’expédition de l’élément de ligne 04/03/2021 04-03-2021
Taxe nombre Taxe associée à chaque élément de ligne. Les valeurs possibles incluent le montant des taxes, le pourcentage de la taxe et la valeur d’application de la taxe (O/N) 10 %

Voici les champs complexes extraits d’une facture dans la réponse de sortie JSON :

TaxDetails

Les détails fiscaux définissent des taxes spécifiques appliquées au total de la facture.

Nom Type Description Texte (élément de ligne no 1) Valeur (sortie standardisée)
Éléments string Texte complet de l’élément fiscal T.V.A. 15 % $60,00
Montant number Montant fiscal de l’élément fiscal 60,00 60
Taux string Taux d’imposition de l’élément fiscal 15 %

PaymentDetails

Répertoriez toutes les options de paiement détectées sur le champ.

Nom Type Description Texte (élément de ligne no 1) Valeur (sortie standardisée)
IBAN string Numéro de compte bancaire interne GB33BUKB20201555555555
SWIFT string Code SWIFT BUKBGB22
BankAccountNumber string Numéro de compte bancaire, identificateur unique d’un compte bancaire 123456
BPayBillerCode string Code de facturation B-Payer australien 12345
BPayReference string Code de référence B-Pay australien 98765432100

Sortie JSON

La sortie JSON comporte trois parties :

  • Le nœud "readResults" contient tout le texte reconnu et toutes les marques de sélection. Le texte est organisé par page, puis par ligne et ensuite par mots individuels.
  • Le nœud "pageResults" contient les tables et les cellules extraites avec leurs cadres englobants, la confiance et une référence aux lignes et aux mots qui se trouvent dans readResults.
  • Le nœud "documentResults" contient les valeurs et les éléments de ligne spécifiques à la facture que le modèle a découverts. C’est là que vous trouvez tous les champs de la facture, tels que l’ID de la facture, l’adresse d’expédition, l’adresse de facturation, le client, le total, les éléments de ligne et bien plus encore.

Guide de migration

Étapes suivantes