Modèle de facture Intelligence Documentaire
Important
- Les mises en production de préversion publique Document Intelligence fournissent un accès anticipé aux fonctionnalités en cours de développement actif. Les fonctionnalités, approches et processus peuvent changer, avant la disponibilité générale (GA), en fonction des commentaires des utilisateurs.
- La préversion publique des bibliothèques de client Intelligence documentaire utilise par défaut la version 2024-07-31-preview de l’API REST.
- La préversion publique 2024-07-31-preview est actuellement disponible uniquement dans les régions Azure suivantes. Notez que le modèle génératif personnalisé (extraction de champ de document) dans AI Studio est disponible uniquement dans la région USA Centre Nord :
- USA Est
- USA Ouest 2
- Europe Ouest
- USA Centre Nord
Ce contenu s’applique à : v4.0 (préversion) | Versions précédentes : v3.1 (GA) v3.0 (GA) v2.1 (GA)
Ce contenu s’applique à : v3.1 (GA) | Dernière version : v4.0 (préversion) | Versions précédentes : v3.0 v2.1
Ce contenu s’applique à : v3.0 (GA) | Dernières versions : v4.0 (préversion) v3.1 | Version précédente : v2.1
Ce contenu s’applique à : v2.1 | Dernière version : v4.0 (préversion)
Le modèle de facture d’Intelligence documentaire utilise de puissantes capacités de reconnaissance optique de caractères (OCR) pour analyser et extraire les champs clés et les éléments de ligne des factures de vente, des factures de service et des bons de commande. Les factures peuvent être de formats et de qualités divers, notamment des images capturées par téléphone, des documents numérisés et des fichiers PDF. L’API analyse le texte de la facture, extrait les informations clés, telles que le nom du client, l’adresse de facturation, la date d’échéance et le montant dû, et renvoie une représentation structurée des données JSON. Le modèle prend actuellement en charge les factures en 27 langues.
Types de documents pris en charge :
- Factures
- Factures de service
- Commandes client
- Bons de commande
Traitement automatisé des factures
Le processus de traitement automatisé des factures consiste à extraire les champs accounts payable
clés des documents de facturation. Les données extraites incluent des éléments de ligne à partir de factures intégrées à vos workflows de comptes fournisseurs (AP) pour les révisions et les paiements. Historiquement, le processus de gestion des comptes créditeurs était effectué manuellement et prenait donc beaucoup de temps. L’extraction précise des données clés à partir de factures est généralement la première et l’une des étapes les plus critiques du processus d’automatisation des factures.
Exemple de facture traitée avec le Studio d’Intelligence documentaire :
Exemple d’une facture traitée avec l’outil d’Étiquetage des exemples d’Intelligence documentaire :
Options de développement
Intelligence documentaire v4.0 (2024-07-31-preview) prend en charge les outils, applications et bibliothèques suivants :
Fonctionnalité | Ressources | ID de modèle |
---|---|---|
Modèle de facture | • Document Intelligence Studio • API REST • Kit de développement logiciel (SDK) C# • Kit de développement logiciel (SDK) Python • Kit de développement logiciel (SDK) Java • Kit de développement logiciel (SDK) JavaScript |
Facture prédéfinie |
Intelligence documentaire v3.1 prend en charge les outils, applications et bibliothèques suivants :
Fonction | Ressources | ID de modèle |
---|---|---|
Modèle de facture | • Document Intelligence Studio • API REST • Kit de développement logiciel (SDK) C# • Kit de développement logiciel (SDK) Python • Kit de développement logiciel (SDK) Java • Kit de développement logiciel (SDK) JavaScript |
Facture prédéfinie |
Intelligence documentaire v3.0 prend en charge les outils, applications et bibliothèques suivants :
Fonction | Ressources | ID de modèle |
---|---|---|
Modèle de facture | • Document Intelligence Studio • API REST • Kit de développement logiciel (SDK) C# • Kit de développement logiciel (SDK) Python • Kit de développement logiciel (SDK) Java • Kit de développement logiciel (SDK) JavaScript |
Facture prédéfinie |
Intelligence documentaire v2.1 prend en charge les outils, applications et bibliothèques suivants :
Fonction | Ressources |
---|---|
Modèle de facture | ● Outil d’étiquetage Intelligence Documentaire • API REST • Kit de développement logiciel (SDK) Bibliothèque client • Intelligence Documentaire Conteneur Docker |
Critères des entrées
Formats de fichiers pris en charge :
Modèle PDF Image : JPEG/JPG
,PNG
,BMP
,TIFF
,HEIF
Microsoft Office :
Word (DOCX
), Excel (XLSX
), PowerPoint (PPTX
), HTMLLire ✔ ✔ ✔ Layout ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview) Document général ✔ ✔ Prédéfinie ✔ ✔ Extraction personnalisée ✔ ✔ Classification personnalisée ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview) Pour de meilleurs résultats, fournissez une photo nette ou une copie de qualité par document.
Pour les PDF et TIFF, jusqu'à 2 000 pages peuvent être traitées (avec un abonnement gratuit, seules les deux premières pages sont traitées).
La taille de fichier pour l’analyse de documents est de 500 Mo pour le niveau payant (S0) et de
4
Mo pour le niveau gratuit (F0).Les dimensions de l’image doivent être comprises entre 50 pixels x 50 pixels et 10 000 pixels x 10 000 pixels.
Si vos fichiers PDF sont verrouillés par mot de passe, vous devez supprimer le verrou avant leur envoi.
La hauteur minimale du texte à extraire est de 12 pixels pour une image de 1024 x 768 pixels. Cette dimension correspond environ à un texte de
8
points à 150 points par pouce (ppp).Pour la formation de modèles personnalisés, le nombre maximal de pages pour les données de formation est de 500 pour le modèle personnalisé et 50 000 pour le modèle neural personnalisé.
Pour l’apprentissage du modèle d’extraction personnalisé, la taille totale des données d’entraînement est de 50 Mo pour le modèle de gabarit et de
1
Go pour le modèle neuronal.Pour l’apprentissage du modèle de classification personnalisé, la taille totale des données d’entraînement est de
1
Go, avec un maximum de 10 000 pages. Pour 2024-07-31-preview et versions ultérieures, la taille totale des données d’apprentissage est de2
Go, avec un maximum de 10 000 pages.
- Formats de fichiers pris en charge : JPEG, PNG, PDF et TIFF.
- PDF et TIFF pris en charge, jusqu’à 2 000 pages sont traitées. Abonnés du niveau Gratuit : seules les deux premières pages sont traitées.
- La taille du fichier pris en charge doit être inférieure à 50 Mo, et les dimensions doivent être comprises entre 50 × 50 pixels et 10 000 × 10 000 pixels.
Extraction de données de modèle de facture
Découvrez comment les données, y compris les informations sur les clients, les détails du fournisseur et les articles, sont extraites des factures. Vous avez besoin des ressources suivantes :
Un abonnement Azure. Vous pouvez en créer un gratuitement.
Instance Intelligence documentaire dans le Portail Azure. Vous pouvez utiliser le niveau tarifaire gratuit (
F0
) pour tester le service. Une fois votre ressource déployée, sélectionnez Accéder à la ressource pour accéder à la clé et au point de terminaison.
Dans la page d’accueil Document Intelligence Studio, sélectionnez Factures.
Vous pouvez analyser l’exemple de facture ou charger vos propres fichiers.
Sélectionnez le bouton Exécuter l’analyse et, si nécessaire, configurez les Options d’analyse :
Outil d’étiquetage d’exemples d’Intelligence documentaire
Accédez à l’outil d’exemples Document Intelligence.
Dans la page d’accueil de l’outil d’étiquetage d’échantillon, sélectionnez la vignette Utiliser un modèle prédéfini pour obtenir des données.
Sélectionnez le Type de formulaire à analyser dans le menu déroulant.
Choisissez un URL pour le fichier que vous souhaitez analyser à partir des options ci-dessous :
Dans le champ Source, sélectionnez URL dans le menu déroulant, collez l’URL sélectionnée, puis sélectionnez le bouton Récupérer.
Dans le champ Point de terminaison du service Document Intelligence, collez le point de terminaison que vous avez obtenu avec votre abonnement Document Intelligence.
Dans le champ Clé, collez la clé que vous avez obtenue de votre ressource Document Intelligence.
Cliquez sur Exécuter l’analyse. L’outil d’étiquetage des exemples d’Intelligence Documentaire appelle l’API Analyze Prebuilt et analyse le document.
Afficher les résultats : consultez les paires clé-valeur extraites, les articles, le texte mis en évidence extrait et les tableaux détectés.
Notes
L’outil d’étiquetage des exemples ne prend pas en charge le format de fichier BMP. Il s’agit d’une limite de l’outil et non du service d’Intelligence documentaire.
Langues et régions prises en charge
Pour obtenir la liste complète des langues prises en charge, consultez notre page Prise en charge des langues du modèle prédéfini.
Extraction de champ
Pour connaître les champs d’extraction de documents pris en charge, reportez-vous à la page Schéma du modèle de facture dans notre référentiel d’exemples GitHub.
Les paires clé-valeur et les éléments de ligne de facture extraits se trouvent dans la section
documentResults
de la sortie JSON.
Paires clé-valeur
La facture prédéfinie 2022-06-30 et versions ultérieures prend en charge le retour facultatif des paires clé-valeur. Par défaut, le retour des paires clé-valeur est désactivé. Les paires clé-valeur sont des portions spécifiques dans la facture qui identifient une étiquette ou une clé, ainsi que la réponse ou la valeur associée. Dans une facture, ces paires peuvent être l’étiquette et la valeur saisie par l’utilisateur pour ce champ ou ce numéro de téléphone. Le modèle d’IA est formé à l’extraction des clés et des valeurs identifiables à partir d’une grande variété de types, de formats et de structures de documents.
Les clés peuvent également exister de manière isolée lorsque le modèle détecte qu’une clé existe sans valeur associée ou lors du traitement de champs facultatifs. Par exemple, le champ du second prénom peut être laissé vide sur un formulaire dans certains cas. Les paires clé-valeur sont toujours des étendues de texte contenues dans le document. Si, dans certains documents, la même valeur est décrite de plusieurs manières, par exemple client/utilisateur, la clé associée est soit client, soit utilisateur (en fonction du contexte).
Champs extraits
Le service de facture extrait le texte, les tables, ainsi que 26 champs de facture. Voici les champs extraits d’une facture dans la réponse de sortie JSON (la sortie suivante utilise cet exemple de facture).
Nom | Type | Description | Texte | Valeur (sortie standardisée) |
---|---|---|---|---|
CustomerName | string | Client destinataire de la facture | Microsoft Corp | |
CustomerId | string | ID de référence du client | CID-12345 | |
PurchaseOrder | string | Numéro de référence du bon de commande | PO-3333 | |
InvoiceId | string | ID de cette facture (souvent appelé « numéro de facture ») | INV-100 | |
InvoiceDate | Date | Date d’émission de la facture | 15/11/2019 | 2019-11-15 |
DueDate | Date | Date d’échéance du paiement de cette facture | 15/12/2019 | 2019-12-15 |
VendorName | string | Fournisseur qui a créé la facture | CONTOSO | |
VendorAddress | string | Adresse postale du fournisseur | 123 456th St New York, NY, 10001 | |
VendorAddressRecipient | string | Nom associé à l’adresse postale du fournisseur | Siège social de Contoso | |
CustomerAddress | string | Adresse postale du client | 123 Other Street, Redmond, Washington, 98052 | |
CustomerAddressRecipient | string | Nom associé à l’adresse postale du client | Microsoft Corp | |
BillingAddress | string | Adresse de facturation explicite du client | 123 Bill Street, Redmond, Washington, 98052 | |
BillingAddressRecipient | string | Nom associé à l’adresse de facturation | Services Microsoft | |
ShippingAddress | string | Adresse d’expédition explicite du client | 123 Ship Street, Redmond, Washington, 98052 | |
ShippingAddressRecipient | string | Nom associé à l’adresse d’expédition | Livraison Microsoft | |
Sous-total | nombre | Champ de sous-total identifié sur cette facture | 100,00 $ | 100 |
TotalTax | nombre | Champ du total des taxes identifié sur cette facture | 10,00 $ | 10 |
InvoiceTotal | nombre | Total des nouveaux frais associés à cette facture | 110,00 $ | 110 |
AmountDue | nombre | Montant total dû au fournisseur | 610,00 $ | 610 |
ServiceAddress | string | Adresse du service ou de la propriété explicite du client | 123 Service Street, Redmond, Washington, 98052 | |
ServiceAddressRecipient | string | Nom associé à l’adresse du service | Services Microsoft | |
RemittanceAddress | string | Adresse d’envoi du paiement explicite pour le client | 123 Remit St New York, NY, 10001 | |
RemittanceAddressRecipient | string | Nom associé à l’adresse d’envoi du paiement explicite | Facturation Contoso | |
ServiceStartDate | Date | Date de début de la période de service (par exemple, pour une période de service de facturation d’utilitaire) | 14/10/2019 | 2019-10-14 |
ServiceEndDate | Date | Date de fin de la période de service (par exemple, pour une période de service de facturation d’utilitaire) | 14/11/2019 | 2019-11-14 |
PreviousUnpaidBalance | nombre | Solde précédent impayé explicite | 500,00 $ | 500 |
Voici les éléments de ligne extraits d’une facture dans la réponse de sortie JSON (avec cet exemple de facture) :
Nom | Type | Description | Texte (élément de ligne no 1) | Valeur (sortie standardisée) |
---|---|---|---|---|
Éléments | string | Texte complet de l’élément de ligne | 04/03/2021 A123 Services de conseil 2 heures 30,00 $ 10 % 60,00 $ | |
Montant | nombre | Montant de l’élément de ligne | 60,00 $ | 100 |
Description | string | Description textuelle de l’élément de ligne de la facture | Service de conseil | Service de conseil |
Quantité | nombre | Quantité pour cet élément de ligne de la facture | 2 | 2 |
UnitPrice | nombre | Prix net ou brut (en fonction du paramètre de facturation brute de la facture) d’une unité de cet élément | 30,00 $ | 30 |
ProductCode | string | Code du produit, numéro de produit ou référence SKU associé à l’élément de ligne spécifique | A123 | |
Unité | string | L’unité de l’élément de ligne (par exemple : kg, lb, etc.) | heures | |
Date | date | Date correspondant à chaque élément de ligne. Il s’agit souvent de la date d’expédition de l’élément de ligne | 04/03/2021 | 04-03-2021 |
Taxe | nombre | Taxe associée à chaque élément de ligne. Les valeurs possibles incluent le montant des taxes, le pourcentage de la taxe et la valeur d’application de la taxe (O/N) | 10 % |
Voici les champs complexes extraits d’une facture dans la réponse de sortie JSON :
TaxDetails
Les détails fiscaux définissent des taxes spécifiques appliquées au total de la facture.
Nom | Type | Description | Texte (élément de ligne no 1) | Valeur (sortie standardisée) |
---|---|---|---|---|
Éléments | string | Texte complet de l’élément fiscal | T.V.A. 15 % $60,00 | |
Montant | number | Montant fiscal de l’élément fiscal | 60,00 | 60 |
Taux | string | Taux d’imposition de l’élément fiscal | 15 % |
PaymentDetails
Répertoriez toutes les options de paiement détectées sur le champ.
Nom | Type | Description | Texte (élément de ligne no 1) | Valeur (sortie standardisée) |
---|---|---|---|---|
IBAN |
string | Numéro de compte bancaire interne | GB33BUKB20201555555555 | |
SWIFT |
string | Code SWIFT | BUKBGB22 | |
BankAccountNumber | string | Numéro de compte bancaire, identificateur unique d’un compte bancaire | 123456 | |
BPayBillerCode | string | Code de facturation B-Payer australien | 12345 | |
BPayReference | string | Code de référence B-Pay australien | 98765432100 |
Sortie JSON
La sortie JSON comporte trois parties :
- Le nœud
"readResults"
contient tout le texte reconnu et toutes les marques de sélection. Le texte est organisé par page, puis par ligne et ensuite par mots individuels. - Le nœud
"pageResults"
contient les tables et les cellules extraites avec leurs cadres englobants, la confiance et une référence aux lignes et aux mots qui se trouvent dans readResults. - Le nœud
"documentResults"
contient les valeurs et les éléments de ligne spécifiques à la facture que le modèle a découverts. C’est là que vous trouvez tous les champs de la facture, tels que l’ID de la facture, l’adresse d’expédition, l’adresse de facturation, le client, le total, les éléments de ligne et bien plus encore.
Guide de migration
- Suivez notre Guide de migration Intelligence documentaire v3.1 pour découvrir comment utiliser la version 3.0 dans vos applications et workflows.
Étapes suivantes
Essayez de traiter vos propres formulaires et documents avec Document Intelligence Studio.
Effectuez un démarrage rapide Intelligence Documentaire et commencez à créer une application de traitement de documents dans le langage de développement de votre choix.
Essayez de traiter vos propres formulaires et documents avec l’outil d’étiquetage d’échantillons Intelligence Documentaire.
Effectuez un démarrage rapide Intelligence Documentaire et commencez à créer une application de traitement de documents dans le langage de développement de votre choix.