Modèle de contrat Document Intelligence

Article
05/23/2024

Important

Les mises en production de préversion publique Document Intelligence fournissent un accès anticipé aux fonctionnalités en cours de développement actif.
Les fonctionnalités, approches et processus peuvent changer, avant la disponibilité générale (GA), en fonction des commentaires des utilisateurs.
La version d'aperçu publique des bibliothèques clientes Document Intelligence est par défaut la version 2024-02-29-preview de l'API REST.
La version d’évaluation publique 2024-02-29-preview est actuellement disponible uniquement dans les régions Azure suivantes :
USA Est
USA Ouest 2
Europe Ouest

Ce contenu s’applique à : v4.0 (préversion) | Version précédente : v3.1 (GA)

Ce contenu s’applique à : v3.1 (GA) | Dernière version : v4.0 (préversion)

Le modèle de contrats Intelligence documentaire utilise de puissantes fonctionnalités de reconnaissance optique de caractères (OCR) pour analyser et extraire des champs clés et des éléments de ligne à partir d’un groupe d’entités importantes de contrats sélectionné. Les contrats peuvent être de formats et de qualités divers, notamment des images capturées par téléphone, des documents numérisés et des fichiers PDF. L’API analyse le texte du document ; extrait les informations clés telles que les parties, les juridictions, l’ID de contrat et le titre ; et retourne une représentation de données JSON structurée. Le modèle prend actuellement en charge les formats de document en anglais.

Traitement automatisé des contrats

Le traitement automatisé des contrats est le processus d’extraction de champs clés des contrats à partir des documents. Historiquement, le processus d’analyse de contrats était réalisé manuellement et prenait donc beaucoup de temps. L’extraction précise des données clés à partir de contrats est généralement la première et l’une des étapes les plus critiques du processus d’automatisation des contrats.

Options de développement

Intelligence documentaire v4.0 (2024-02-29-preview) prend en charge les outils, applications et bibliothèques suivants :

Fonctionnalité	Ressources	ID de modèle
Modèle de contrat	• Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	prebuilt-contract

Document Intelligence v3.1 prend en charge les outils, applications et bibliothèques suivants :

Fonction	Ressources	ID de modèle
Modèle de contrat	• Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	prebuilt-contract

Document Intelligence v3.0 prend en charge les outils, applications et bibliothèques suivants :

Fonction	Ressources	ID de modèle
Modèle de contrat	• Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	prebuilt-contract

Critères des entrées

Pour de meilleurs résultats, fournissez une photo nette ou une copie de qualité par document.

Formats de fichiers pris en charge :

Modèle	PDF	Image : JPEG/JPG, PNG, BMP, TIFF, HEIF	Microsoft Office : Word (DOCX), Excel (XLSX), PowerPoint (PPTX) et HTML
Lire	✔	✔	✔
Layout	✔	✔	✔ (2024-02-29-preview, 2023-10-31-preview)
Document général	✔	✔
Prédéfinie	✔	✔
Extraction personnalisée	✔	✔
Classification personnalisée	✔	✔	✔ (2024-02-29-preview)

Pour PDF et TIFF, il est possible de traiter jusqu’à 2 000 pages (avec un abonnement gratuit, seules les deux premières pages sont traitées).
La taille de fichier pour l’analyse des documents est de 500 Mo pour le niveau payant (S0) et de 4 Mo pour le niveau gratuit (F0).
Les dimensions des images doivent être comprises entre 50 x 50 et 10 000 x 10 000 pixels.
Si vos fichiers PDF sont verrouillés par mot de passe, vous devez supprimer le verrou avant leur envoi.
La hauteur minimale du texte à extraire est de 12 pixels pour une image de 1024 x 768 pixels. Cette dimension correspond à environ 8 points de texte à 150 points par pouce (PPP).
Pour la formation de modèles personnalisés, le nombre maximal de pages pour les données de formation est de 500 pour le modèle personnalisé et 50 000 pour le modèle neural personnalisé.
- Pour l’entraînement du modèle d’extraction personnalisé, la taille totale des données d’entraînement est de 50 Mo pour le modèle et 1G-Mo pour le modèle neural.
- Pour l’entraînement du modèle de classification personnalisée, la taille totale des données de formation est 1GB, avec un maximum à 10 000 pages.

Essayer l’extraction de données de document de contrat

Découvrez comment les données, y compris les informations sur les clients, les détails du fournisseur et les articles, sont extraites des contrats. Vous avez besoin des ressources suivantes :

Un abonnement Azure. Vous pouvez en créer un gratuitement.
Instance Intelligence documentaire dans le Portail Azure. Vous pouvez utiliser le niveau tarifaire gratuit (F0) pour tester le service. Une fois votre ressource déployée, sélectionnez Accéder à la ressource pour accéder à la clé et au point de terminaison.

Capture d’écran de l’emplacement des clés et des points de terminaison dans le Portail Azure.

Document Intelligence Studio

Dans la page d’accueil de l’Intelligence documentaire Studio, sélectionnez Documents fiscaux.
Vous pouvez analyser l’exemple de documents fiscaux ou charger vos propres fichiers.
Sélectionnez le bouton Exécuter l’analyse et, si nécessaire, configurez les Options d’analyse :

Essayer le Studio d’Intelligence documentaire

Langues et régions prises en charge

Pour obtenir la liste complète des langues prises en charge, consultez notre page Prise en charge des langues : Modèles prédéfinis.

Extraction de champ

Voici les champs extraits d’un contrat dans la réponse de sortie JSON.

Nom	Type	Description	Exemple de sortie
Titre	Chaîne	Titre du contrat	Accord de service
ContractId	Chaîne	Titre du contrat	AB12956
Tiers	Tableau	Liste des parties juridiques
ExecutionDate	Date	Date à laquelle l’accord a été entièrement signé et convenu par toutes les parties	`On this twenty-third day of February two thousand and twenty two`
ExpirationDate	Date	Date à laquelle le contrat se termine pour être en vigueur	Une année
RenewalDate	Date	Date à laquelle le contrat doit être renouvelé	`On this twenty-third day of February two thousand and twenty two`
Jurisdictions	Tableau	Liste des juridictions

Les paires clé-valeur et les éléments de ligne de contrat extraits se trouvent dans la section documentResults de la sortie JSON.

Étapes suivantes

Essayez de traiter vos propres formulaires et documents avec Document Intelligence Studio.
Effectuez un démarrage rapide Intelligence Documentaire et commencez à créer une application de traitement de documents dans le langage de développement de votre choix.

Partager via