Partager via


Fonctionnalités du module complémentaire Document Intelligence

Important

  • Les mises en production de préversion publique Document Intelligence fournissent un accès anticipé aux fonctionnalités en cours de développement actif. Les fonctionnalités, approches et processus peuvent changer, avant la disponibilité générale (GA), en fonction des commentaires des utilisateurs.
  • La préversion publique des bibliothèques de client Intelligence documentaire utilise par défaut la version 2024-07-31-preview de l’API REST.
  • La préversion publique 2024-07-31-preview est actuellement disponible uniquement dans les régions Azure suivantes. Notez que le modèle génératif personnalisé (extraction de champ de document) dans AI Studio est disponible uniquement dans la région USA Centre Nord :
    • USA Est
    • USA Ouest 2
    • Europe Ouest
    • USA Centre Nord 

Ce contenu s’applique à : coche v4.0 (préversion) | Versions précédentes : coche-bleue v3.1 (GA)

Ce contenu s’applique à : coche v3.1 (GA) | Dernière version : coche-violette v4.0 (préversion)

Remarque

Les fonctionnalités de module complémentaire sont disponibles dans tous les modèles, à l’exception du modèle Business carte.

Fonctionnalités

Intelligence documentaire prend en charge des fonctionnalités d’analyse plus sophistiquées et modulaires. Utilisez les fonctionnalités de modules complémentaires pour étendre les résultats afin d’inclure d’autres fonctionnalités extraites de vos documents. Certaines fonctionnalités de modules complémentaires entraînent un coût supplémentaire. Ces fonctionnalités facultatives peuvent être activées et désactivées selon le scénario d’extraction de documents. Pour activer une fonctionnalité, ajoutez le nom de fonctionnalité associé à la propriété features de la chaîne de requête. Vous pouvez activer plusieurs fonctionnalités du module complémentaire à la demande, en fournissant une liste séparée par des virgules de fonctionnalités. Les fonctionnalités du module complémentaire suivantes sont disponibles pour 2023-07-31 (GA) et les versions ultérieures.

Pour les versions 2024-07-31-preview et ultérieures, le modèle Lecture prend en charge la sortie PDF pouvant faire l’objet d’une recherche :

Remarque

  • Toutes les fonctionnalités de module complémentaire ne sont pas prises en charge par tous les modèles. Pour plus d’informations, consultez Extraction de données de modèle.

  • Les fonctionnalités de module complémentaire ne sont actuellement pas prises en charge pour les types de fichiers Microsoft Office.

Document Intelligence prend en charge des fonctionnalités facultatives qui peuvent être activées et désactivées en fonction du scénario d’extraction de document. Les fonctionnalités de module complémentaire suivantes sont disponibles pour 2023-10-31-preview et versions ultérieures :

Remarque

L’implémentation des champs de requête dans l’API 2023-10-30-preview est différente de la dernière préversion. La nouvelle implémentation est moins coûteuse et fonctionne bien avec des documents structurés.

Disponibilité des versions

Capacité du module complémentaire Module complémentaire/gratuit 2024-02-29-preview 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Extraction des propriétés de la police Module complémentaire ✔️ ✔️ n/a n/a
Extraction de formules Module complémentaire ✔️ ✔️ n/a n/a
Extraction à haute résolution Module complémentaire ✔️ ✔️ n/a n/a
Extraction de codes-barres Gratuit ✔️ ✔️ n/a n/a
Détection de langue Gratuit ✔️ ✔️ n/a n/a
Paires clé-valeur Gratuit ✔️ n/a n/a n/a
Champs de requête Module complémentaire* ✔️ n/a n/a n/a

✱ Module complémentaire : les champs de requête sont facturés différemment des autres fonctionnalités du module complémentaire. Pour en savoir plus, voir les tarifs.

Formats de fichiers pris en charge

  • PDF

  • Images : JPEG/JPG, PNG, BMP, TIFF, HEIF

✱ Les fichiers Microsoft Office ne sont pas pris en charge actuellement.

Extraction à haute résolution

La tâche de reconnaître de petits textes dans des documents de grande taille, comme les dessins d’ingénierie, est une difficulté. Le texte est parfois mélangé à d’autres éléments graphiques, avec différentes polices, tailles et orientations. De surcroît, le texte peut être scindé en parties distinctes ou relié à d’autres symboles. Document Intelligence prend désormais en charge l’extraction de contenu de ces types de documents avec la fonctionnalité ocr.highResolution. Vous obtenez une extraction de contenu de meilleure qualité à partir de documents A1/A2/A3 en activant cette fonctionnalité de module complémentaire.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

Extraction de formules

La fonctionnalité ocr.formula extrait toutes les formules identifiées, dont les équations mathématiques, dans la collection formulas comme objet de niveau supérieur sous content. Dans content, les formules détectées sont représentées comme :formula:. Chaque entrée de cette collection représente une formule qui inclut le type de formule en tant que inline ou display et sa représentation LaTeX comme value avec ses coordonnées polygon. Les formules apparaissent en premier lieu à la fin de chaque page.

Remarque

Le confidence score est codé en dur.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

Extraction des propriétés de la police

La fonctionnalité ocr.font extrait toutes les propriétés de police de caractère récupéré de la collection styles comme objet de niveau supérieur sous content. Chaque objet de style indique une propriété de police unique, l’étendue du texte à laquelle il s’applique et son score de confiance correspondant. La propriété de style existante est étendue avec d’autres propriétés de police, telles que similarFontFamily pour la police de caractère, fontStyle pour les styles comme italique et normal, fontWeight pour gras ou normal, color pour la couleur du texte et backgroundColor pour la couleur du cadre englobant le texte.

  {your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
  {your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

Extraction des propriétés de code-barres

La capacité ocr.barcode extrait tous les codes-barres identifiés dans la collection barcodes en tant qu’objet de niveau supérieur sous content. Dans content, les code-barres détectés sont représentés sous la forme :barcode:. Chaque entrée de cette collection représente un code-barres et inclut le type de code-barres comme kind et le contenu du code-barres incorporé comme value, ainsi que ses coordonnées polygon. Les code-barres apparaissent en premier lieu à la fin de chaque page. Le confidence est codé en dur pour 1.

Types de code-barres pris en charge

Type de code-barres Exemple
QR Code Capture d’écran du code QR.
Code 39 Capture d’écran du code 39.
Code 93 Capture d’écran du code 93.
Code 128 Capture d’écran du code 128.
UPC (UPC-A & UPC-E) Capture d’écran du code UPC.
PDF417 Capture d’écran du code PDF417.
EAN-8 Capture d’écran du code-barre numéro-article européen ean-8.
EAN-13 Capture d’écran du code-barre numéro-article européen ean-13.
Codabar Capture d’écran du Codabar.
Databar Capture d’écran de la barre de données.
Databar Dveloppé Capture d’écran de la barre de données développée.
ITF Capture d’écran du code-barre intercalé two-of-five (ITF).
Data Matrix Capture d’écran de la matrice de données.
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

Détection de langue

L’ajout de la fonctionnalité languages à la requête analyzeResult prédit le langage primaire détectée pour chaque ligne de texte, ainsi que la confidence dans la collection languages sous analyzeResult.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

PDF pouvant faire l’objet d’une recherche

La fonctionnalité PDF pouvant faire l’objet d’une recherche vous permet de convertir un fichier PDF analogique, tel que des fichiers PDF d’images numérisées, en PDF avec du texte incorporé. Le texte incorporé permet une recherche en texte profond dans le contenu extrait du PDF en superposant les entités de texte détectées au-dessus des fichiers image.

Important

  • Actuellement, la fonctionnalité PDF pouvant faire l’objet d’une recherche n’est prise en charge que par le modèle OCR en lecture prebuilt-read. Lorsque vous utilisez cette fonctionnalité, spécifiez la modelId en tant que prebuilt-read, car d’autres types de modèles retournent une erreur pour cette préversion.
  • Le fichier PDF pouvant faire l’objet d’une recherche est inclus dans le modèle prebuilt-read version préliminaire 2024-07-31-preview sans coût d’utilisation pour la consommation PDF générale.

Utiliser le PDF pouvant faire l’objet d’une recherche

Pour utiliser un fichier PDF pouvant faire l’objet d’une recherche, effectuez une requête POST à l’aide de l’opération Analyze et spécifiez le format de sortie comme pdf:


POST /documentModels/prebuilt-read:analyze?output=pdf
{...}
202

Une fois l’opération Analyze terminée, effectuez une demande de GET pour récupérer les résultats de l’opération Analyze.

Une fois l’opération terminée, le fichier PDF peut être récupéré et téléchargé en tant que application/pdf. Cette opération permet le téléchargement direct de la forme de texte incorporée au format PDF au lieu de JSON encodé en Base64.


// Monitor the operation until completion.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}
200
{...}

// Upon successful completion, retrieve the PDF as application/pdf.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
200 OK
Content-Type: application/pdf

Paires clé-valeur

Dans les versions antérieures de l’API, le modèle prebuilt-document extrayait des paires clé-valeur à partir de formulaires et de documents. Avec l’ajout de la fonctionnalité keyValuePairs à la disposition prédéfinie, le modèle de disposition produit désormais les mêmes résultats.

Les paires clé-valeur sont des portions spécifiques dans le document qui identifient une étiquette ou une clé, ainsi que la réponse ou la valeur associée. Dans un formulaire structuré, ces paires pourraient être l’étiquette et la valeur saisie par l’utilisateur pour ce champ. Dans un document non structuré, il pourrait s’agir de la date d’exécution d’un contrat en fonction du texte d’un paragraphe. Le modèle d’IA est formé à l’extraction des clés et des valeurs identifiables à partir d’une grande variété de types, de formats et de structures de documents.

Les clés peuvent également exister de manière isolée lorsque le modèle détecte qu’une clé existe sans valeur associée ou lors du traitement de champs facultatifs. Par exemple, le champ du second prénom peut être laissé vide sur un formulaire dans certains cas. Les paires clé-valeur sont des étendues de texte contenues dans le document. Si, dans certains documents, la même valeur est décrite de plusieurs manières, par exemple client/utilisateur, la clé associée est soit client, soit utilisateur (en fonction du contexte).

API REST

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs

Champs de requête

Les champs de requête sont une capacité du module complémentaire permettant d’étendre le schéma extrait de n’importe quel modèle prédéfini ou de définir un nom de clé spécifique lorsque le nom de la clé est variable. Pour utiliser des champs de requête, définissez les fonctionnalités sur queryFields et fournissez une liste (séparée par des virgules) des noms de champs dans la propriété queryFields.

  • Intelligence documentaire prend désormais en charge les extractions de champs de requête. Avec l’extraction de champ de requête, vous pouvez ajouter des champs au processus d’extraction au moyen d’une requête sans besoin de formation supplémentaire.

  • Utilisez des champs de requête lorsque vous devez étendre le schéma d’un modèle prédéfini ou personnalisé ou extraire quelques champs avec la sortie de la disposition.

  • Les champs de requête sont une fonctionnalité de module complémentaire Premium. Pour de meilleurs résultats, définissez les champs que vous souhaitez extraire en utilisant des noms de champs en casse mixte (camel) ou en casse Pascal pour les noms de champs à plusieurs mots.

  • Les champs de requêtes prennent en charge un maximum de 20 champs par requête. Si le document contient une valeur pour le champ, le champ et la valeur sont retournés.

  • Cette version comporte une nouvelle implémentation de la capacité des champs de requête, dont le prix est inférieur à celui de l’implémentation précédente et qui doit être validée.

Remarque

L’extraction de champs de requête Document Intelligence Studio est actuellement disponible avec l’API 2024-02-29-preview, 2023-10-31-preview et ultérieure des modèles prédéfinis et de disposition, à l’exception des modèles US tax (modèles W2, 1098 et 1099).

Extraction du champ de requête

Pour l’extraction de champ de requête, indiquez les champs à extraire et Intelligence documentaire analyse le document en conséquence. Voici un exemple :

  • Si vous traitez un contrat dans le Studio Intelligence documentaire, utilisez la version 2024-02-29-preview ou 2023-10-31-preview :

    Capture d'écran du bouton Champs de requête dans le Studio Intelligence documentaire.

  • Vous pouvez transmettre une liste d’étiquettes de champ comme Party1, Party2, TermsOfUse, PaymentTerms, PaymentDate et TermEndDate dans le cadre de la requête analyze document.

    Capture d’écran d’une fenêtre de sélection des champs de requête dans le Studio Intelligence documentaire.

  • Intelligence documentaire est en mesure d’analyser et d’extraire les données de champ et de retourner les valeurs dans une sortie JSON structurée.

  • Outre les champs de requête, la réponse inclut du texte, des tableaux, des marques de sélection et d’autres données pertinentes.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS

Étapes suivantes

Exemples du Kit de développement logiciel (SDK) : python

Trouver d’autres exemples : fonctionnalités de module complémentaire

Trouver d’autres exemples : fonctionnalités de module complémentaire