Démarrage : Document Intelligence Studio

Ce contenu s’applique à :cochev4.0 (préversion) | Versions précédentes :coche-bleuev3.1 (GA)coche-bleuev3.0 (GA)

Document Intelligence Studio est un outil en ligne permettant d’explorer, de comprendre et d’intégrer visuellement des fonctionnalités du service Intelligence documentaire dans vos applications. Vous pouvez commencer à explorer les modèles pré-entraînés avec un exemple ou vos propres documents. Vous pouvez également créer des projets pour générer des modèles personnalisés et référencer ces modèles dans vos applications à l’aide du Kit de développement logiciel (SDK) Python et d’autres démarrages rapides.

Prérequis pour les nouveaux utilisateurs

Conseil

Créez une ressource Azure AI services si vous envisagez d’accéder à plusieurs services Azure AI services sous un seul point de terminaison/une seule clé. Pour l’accès à Document Intelligence uniquement, créez une ressource Document Intelligence. Actuellement l’authentification Microsoft Entra n’est pas prise en charge sur Document Intelligence Studio pour accéder aux API de service de Document Intelligence. Pour utiliser Document Intelligence Studio, il est nécessaire d’activer l’authentification basée sur la clé d’accès/l’authentification locale.

Attributions de rôles Azure

Pour l’analyse des documents et les modèles prédéfinis, les attributions de rôles suivantes sont requises pour différents scénarios.

  • De base
    • Utilisateur Cognitive Services : vous avez besoin de ce rôle pour la ressource Intelligence documentaire ou Azure AI Services pour entrer sur la page d’analyse.
  • Avancé
    • Contributeur : vous avez besoin de ce rôle pour créer un groupe de ressources, un service Intelligence documentaire ou une ressource Azure AI services.

Modèles

Les modèles prédéfinis vous aident à ajouter des fonctionnalités Intelligence documentaire à vos applications sans avoir à créer, entraîner et publier vos propres modèles. Vous pouvez choisir entre plusieurs modèles prédéfinis, chacun ayant son propre ensemble de champs de données pris en charge. Le choix de modèle à utiliser pour l’opération d’analyse dépend du type de document à analyser. Intelligence documentaire prend actuellement en charge les modèles prédéfinis suivants :

Analyse de documents

  • Disposition : Extrait le texte, les tableaux, les marques de sélection et les informations de structure à partir de documents (PDF, TIFF) et d’images (JPG, PNG, BMP).
  • Lecture : extrait les lignes de texte, les mots, leur emplacement, les langues détectées et le style manuscrit s’il est détecté dans des documents (PDF, TIFF) et des images (JPG, PNG, BMP).

Prédéfinie

  • Facture : Extrait le texte, les marques de sélection, les tableaux, les paires clé-valeur et les informations clés des factures.
  • Reçu : Extrait le texte et les informations clés des reçus.
  • Carte d’assurance maladie : extrait l’assureur, le membre, l’ordonnance, le numéro du groupe et d’autres informations clés des cartes d’assurance maladie américaines.
  • W-2 : extrait le texte et les informations clés de formulaires fiscaux W-2.
  • Document d’identité : Extrait le texte et les informations clés des permis de conduire et des passeports internationaux.

Personnalisée

  • Modèles personnalisés d’extraction : extrait des informations à partir de formulaires et de documents avec des modèles personnalisés d’extraction. Entraînez rapidement un modèle en n’étiquetant que cinq documents exemples.
  • Modèle de classification personnalisée : entraîne un classifieur personnalisé à faire la distinction entre les différents types de documents dans vos applications. Entraînez rapidement un modèle avec seulement deux classes et cinq exemples pour chaque classe.

Une fois que vous avez répondu aux prérequis, accédez à Document Intelligence Studio.

  1. Sélectionnez une fonctionnalité du service Intelligence documentaire dans la page d’accueil de Studio.

  2. Cet étape est un unique, sauf si vous avez déjà sélectionné la ressource de service lors d’une utilisation antérieure. Sélectionnez votre abonnement Azure, votre groupe de ressources et votre ressource. (Vous pouvez modifier les ressources à tout moment en sélectionnant « Paramètres » dans le menu supérieur.) Vérifiez et confirmez vos sélections.

  3. Sélectionnez le bouton Analyser pour exécuter l’analyse sur l’exemple de document ou essayez votre document en utilisant la commande Ajouter.

  4. Utilisez les contrôles au bas de l’écran pour effectuer un zoom avant et arrière et faire pivoter l’affichage du document.

  5. Observez le contenu extrait mis en surbrillance dans la vue du document. Placez la souris sur les clés et les valeurs pour afficher les détails.

  6. Sous l’onglet Résultat de la section de sortie, parcourez la sortie JSON pour comprendre le format de la réponse du service.

  7. Sous l’onglet Code, parcourez l’exemple de code pour l’intégration. Copiez et téléchargez pour commencer.

Prérequis supplémentaires pour les projets personnalisés

Outre le compte Azure et une ressource Intelligence documentaire ou Azure AI services, vous avez besoin de ce qui suit :

Conteneur de stockage d'objets blob Azure

Un compte de Stockage Blob Azure de performances standard. Vous créez des conteneurs pour stocker et organiser vos données d’entraînement dans votre compte de stockage. Si vous ignorez comment créer un compte de stockage Azure avec un conteneur, suivez les démarrages rapides suivants :

  • Créer un compte de stockage. Lorsque vous créez votre compte de stockage, veillez à sélectionner performanceStandard dans le champ Détails de l’instance → Performance.
  • Créer un conteneur. Lors de la création de votre conteneur, définissez le champ Niveau d’accès public sur Conteneur (accès en lecture anonyme pour les conteneurs et les objets blob) dans la fenêtre Nouveau conteneur .

Attributions de rôles Azure

Pour les projets personnalisés, les attributions de rôles suivantes sont requises pour différents scénarios.

  • De base
    • Utilisateur Cognitive Services : vous avez besoin de ce rôle pour la ressource Intelligence documentaire ou Azure AI Services pour former le modèle personnalisé ou effectuer une analyse avec des modèles formés.
    • Contributeur aux données blob de stockage : vous avez besoin de ce rôle pour le compte de stockage afin de créer un projet et d’étiqueter des données.
  • Avancé
    • Contributeur de compte de stockage : vous avez besoin de ce rôle pour que le compte de stockage configure les paramètres CORS (il s’agit d’un effort unique si le même compte de stockage est réutilisé).
    • Contributeur : vous avez besoin de ce rôle pour créer un groupe de ressources et des ressources.

Configuration de CORS

CORS (Cross Origin Resource Sharing) doit être configuré sur votre compte Stockage Azure pour qu’il soit accessible à partir de Document Intelligence Studio. Pour configurer CORS dans le Portail Azure, vous devez accéder à l’onglet CORS de votre compte de stockage.

  1. Sélectionnez l’onglet CORS pour le compte de stockage.

    Capture d’écran du menu de paramétrage CORS dans le Portail Azure.

  2. Commencez par créer une entrée CORS dans le service BLOB.

  3. Définissez le paramètre Origines autorisées sur https://documentintelligence.ai.azure.com.

    Capture d’écran montrant la configuration de CORS pour un compte de stockage.

    Conseil

    Vous pouvez utiliser le caractère générique « * » au lieu d’un domaine précis pour autoriser tous les domaines d'origine à effectuer des demandes via CORS.

  4. Sélectionnez les 8 options disponibles pour Méthodes autorisées.

  5. Approuvez tous les En-têtes autorisés et tous les En-têtes exposés en entrant un * dans chaque champ.

  6. Affectez à Âge maximal la valeur 120 secondes ou toute autre valeur acceptable.

  7. Sélectionnez le bouton enregistrer en haut de la page pour enregistrer les changements apportés.

CORS doit à présent être configuré pour utiliser le compte de stockage à partir de Document Intelligence Studio.

Ensemble d’exemples de documents

  1. Connectez-vous au Portail Azure et accédez à Votre compte de stockage>Stockage de données>Conteneurs.

    Capture d’écran du menu de stockage des données dans le Portail Azure.

  2. Sélectionnez un conteneur dans la liste.

  3. Sélectionnez Télécharger dans le menu en haut de la page.

    Capture d’écran du bouton chargement du conteneur dans le Portail Azure.

  4. La fenêtre Charger l’objet blob s’affiche.

  5. Sélectionnez le ou les fichiers à charger.

    Capture d’écran et la fenêtre charger l’objet blob dans le Portail Azure.

Remarque

Par défaut, Studio utilise uniquement les documents situés à la racine de votre conteneur. Toutefois, vous pouvez utiliser des données organisées en dossiers en spécifiant le chemin d'accès au dossier dans les étapes de création du projet de formulaire personnalisé. ConsultezOrganiser vos données dans des sous-dossiers

Modèles personnalisés

Pour créer des modèles personnalisés, vous commencez par configurer votre projet :

  1. Sur la page d’accueil Studio, sélectionnez la carte Modèle personnalisé pour ouvrir la page Modèles personnalisés.

  2. Utilisez la commande « Créer un projet » pour démarrer l’Assistant Nouvelle configuration de projet.

  3. Entrez les détails du projet, sélectionnez l’abonnement Azure et la ressource, ainsi que le conteneur de stockage Blob Azure qui contient vos données.

  4. Passez en revue et envoyez vos paramètres pour créer le projet.

  5. Pour démarrer rapidement le processus d’étiquetage, utilisez la fonctionnalité d’étiquette automatique pour étiqueter à l’aide d’un modèle déjà formé ou d’un de nos modèles prédéfinis.

  6. Pour étiqueter manuellement à partir de zéro, définissez les étiquettes et leurs types que vous souhaitez extraire.

  7. Sélectionnez le texte dans le document et cliquez sur l’étiquette dans la liste déroulante ou dans le volet des étiquettes.

  8. Étiquetez quatre documents supplémentaires pour obtenir au moins cinq documents étiquetés.

  9. Sélectionnez la commande Entraîner et entrez le nom du modèle, puis indiquez si vous souhaitez que le modèle neural (recommandé) ou le modèle gabarit commence l’entraînement de votre modèle personnalisé.

  10. Une fois que le modèle est prêt, utilisez la commande Tester pour le valider avec vos documents de test et observer les résultats.

Démonstration du modèle personnalisé Intelligence documentaire

Étiquetage en tant que tableaux

Notes

  • Avec la version d’API 2022-06-30-préversion et versions ultérieures, les modèles personnalisés ajoutent la prise en charge des champs tabulaires sur plusieurs pages (tables).
  • Avec la version d’API versions 2022-06-30-préversion et ultérieures, les modèles neuraux personnalisés prennent en charge les champs tabulaires (tables) et les modèles formés avec la version d’API 2022-08-31, ou version ultérieure acceptent les étiquettes de champs tabulaires.
  1. Utilisez la commande Supprimer pour supprimer les modèles qui ne sont pas requis.

  2. Téléchargez les détails du modèle pour les voir hors connexion.

  3. Sélectionnez plusieurs modèles et combinez-les dans un nouveau modèle à utiliser dans vos applications.

Utilisation de tables en tant que modèle visuel :

Pour les modèles de formulaire personnalisés, durant la création de vos modèles personnalisés, vous devrez peut-être extraire des collections de données de vos documents. Les collectes de données peuvent apparaître sous plusieurs formats. Utilisation de tables en tant que modèle visuel :

  • Nombre dynamique ou variable de valeurs (lignes) pour un ensemble donné de champs (colonnes)

  • Collection spécifique de valeurs pour un ensemble donné de champs (colonnes et/ou lignes)

Étiqueter en tant que tableau dynamique

Utilisez des tables dynamiques afin d’extraire le nombre variable de valeurs (lignes) pour un ensemble donné de champs (colonnes) :

  1. Ajoutez une nouvelle étiquette de type « Tableau », sélectionnez le type « Tableau dynamique » et nommez votre étiquette.

  2. Ajoutez le nombre de colonnes (champs) et de lignes (pour les données) dont vous avez besoin.

  3. Sélectionnez le texte dans votre page, puis cliquez sur la cellule à affecter au texte. Répétez cette opération pour toutes les lignes et toutes les colonnes de toutes les pages de tous les documents.

Exemple d’étiquetage Intelligence documentaire en tant que table dynamique

Étiqueter en tant que tableau fixe

Utilisez des tables fixes afin d’extraire une collection spécifique de valeurs pour un ensemble donné de champs (colonnes et/ou lignes) :

  1. Créez une nouvelle étiquette de type « Tableau », sélectionnez le type « Tableau fixe » et nommez-le.

  2. Ajoutez le nombre de colonnes et de lignes dont vous avez besoin qui doivent correspondre aux deux ensembles de champs.

  3. Sélectionnez le texte dans votre page, puis cliquez sur la cellule pour l’affecter au texte. Répétez cette opération pour les autres documents.

Exemple d’étiquetage Intelligence documentaire en tant que table fixe

Détection de signature

Notes

Les champs de signature ne sont actuellement pris en charge que pour les modèles personnalisés. Lors de l’entraînement d’un modèle neuronal personnalisé, les champs de signature étiquetés sont ignorés.

Pour étiqueter en vue d’une détection de signature : (formulaire personnalisé uniquement)

  1. Dans la vue d’étiquetage, créez une nouvelle étiquette de type « Signature » et nommez-la.

  2. Utilisez la commande Région pour créer une zone rectangulaire à l’emplacement attendu de la signature.

  3. Sélectionnez la région dessinée et cliquez sur l’étiquette de type Signature pour l’affecter à votre région dessinée. Répétez cette opération pour les autres documents.

Exemple d’étiquetage Intelligence documentaire pour la détection de signature

Étapes suivantes

Bien démarrer avec Document Intelligence Studio.