Générer et effectuer l'apprentissage d’un modèle de classification personnalisé

Article
11/15/2023

Ce contenu s’applique à :v4.0 (préversion) | Versions précédentes :v3.1 (GA)v3.0 (GA)

Important

Un modèle de classification personnalisé est actuellement en préversion publique. Les fonctionnalités, approches et processus peuvent changer, avant la disponibilité générale (GA), en fonction des commentaires des utilisateurs.

Les modèles de classification personnalisés peuvent classifier chaque page d’un fichier d’entrée pour identifier le ou les documents à l’intérieur. Les modèles de classifieur peuvent également identifier plusieurs documents ou plusieurs instances d’un seul document dans le fichier d’entrée. Les modèles personnalisés de Document Intelligence nécessitent uniquement cinq documents d’apprentissage par classe de documents pour démarrer. Pour commencer à effectuer l'apprentissage d’un modèle de classification personnalisé, vous avez besoin d’au moins cinq documents pour chaque classe et de deux classes de documents.

Exigences d’entrée de modèle de classification personnalisé

Assurez-vous que votre jeu de données d’apprentissage respecte les exigences d’entrée de l’Intelligence documentaire.

Pour de meilleurs résultats, fournissez une photo nette ou une copie de qualité par document.

Formats de fichiers pris en charge :

Modèle	PDF	Image : JPEG/JPG, PNG, BMP, TIFF, HEIF	Microsoft Office : Word (DOCX), Excel (XLSX), PowerPoint (PPTX) et HTML
Lire	✔	✔	✔
Layout	✔	✔	✔ (2024-02-29-preview, 2023-10-31-preview)
Document général	✔	✔
Prédéfinie	✔	✔
Extraction personnalisée	✔	✔
Classification personnalisée	✔	✔	✔ (2024-02-29-preview)

Pour PDF et TIFF, il est possible de traiter jusqu’à 2 000 pages (avec un abonnement gratuit, seules les deux premières pages sont traitées).
La taille de fichier pour l’analyse des documents est de 500 Mo pour le niveau payant (S0) et de 4 Mo pour le niveau gratuit (F0).
Les dimensions des images doivent être comprises entre 50 x 50 et 10 000 x 10 000 pixels.
Si vos fichiers PDF sont verrouillés par mot de passe, vous devez supprimer le verrou avant leur envoi.
La hauteur minimale du texte à extraire est de 12 pixels pour une image de 1024 x 768 pixels. Cette dimension correspond à environ 8 points de texte à 150 points par pouce (PPP).
Pour la formation de modèles personnalisés, le nombre maximal de pages pour les données de formation est de 500 pour le modèle personnalisé et 50 000 pour le modèle neural personnalisé.
- Pour l’entraînement du modèle d’extraction personnalisé, la taille totale des données d’entraînement est de 50 Mo pour le modèle et 1G-Mo pour le modèle neural.
- Pour l’entraînement du modèle de classification personnalisée, la taille totale des données de formation est 1GB, avec un maximum à 10 000 pages.

Conseils relatifs aux données d’entraînement

Pour optimiser davantage votre jeu de données à des fins d’apprentissage, suivez ces conseils :

Si possible, utilisez des documents PDF utilisant du texte au lieu d’images. Les fichiers PDF numérisés sont traités comme des images.
Si vos images de formulaire sont de faible qualité, utilisez un plus grand jeu de données (par exemple, 10 à 15 images).

Charger vos données d’entraînement

Une fois que vous avez réuni l’ensemble des formulaires ou documents pour la formation, vous devez le charger sur un conteneur de Stockage Blob Azure. Si vous ignorez comment créer un compte de stockage Azure avec un conteneur, suivez le Guide de démarrage rapide du Stockage Azure pour le portail Azure. Vous pouvez utiliser le niveau tarifaire Gratuit (F0) pour tester le service, puis passer par la suite à un niveau payant pour la production. Si votre jeu de données est organisé en tant que dossiers, conservez cette structure, car Studio peut utiliser les noms de vos dossiers pour les étiquettes pour simplifier le processus d’étiquetage.

Créer un projet de classification dans Document Intelligence Studio

Document Intelligence Studio fournit et orchestre l’ensemble des appels d’API requis pour créer votre jeu de données et effectuer l’apprentissage de votre modèle.

Pour commencer, accédez à Document Intelligence Studio. La première fois que vous utilisez Studio, vous devez initialiser votre abonnement, votre groupe de ressources et votre ressource. Suivez ensuite les prérequis pour les projets personnalisés afin de configurer Studio pour accéder à votre jeu de données d’apprentissage.
Dans Studio, sélectionnez la vignette Modèle de classification personnalisé sur la section Modèles personnalisés de la page, puis sélectionnez le bouton Créer un projet.
1. Dans la boîte de dialogue Créer un projet, indiquez un nom pour votre projet, entrez éventuellement une description, puis sélectionnez Continuer.
2. Ensuite, choisissez ou créez une ressource Document Intelligence avant de sélectionner Continuer.
Sélectionnez ensuite le compte de stockage que vous avez utilisé pour charger le jeu de données d’apprentissage de votre modèle personnalisé. Le chemin du dossier doit être vide si vos documents d’apprentissage se trouvent à la racine du conteneur. Si vos documents se trouvent dans un sous-dossier, entrez le chemin d’accès relatif à partir de la racine du conteneur dans le champ Chemin du dossier. Une fois votre compte de stockage configuré, sélectionnez Continuer.

Important

Vous pouvez organiser le jeu de données d’apprentissage par dossiers où le nom du dossier est l’étiquette ou la classe des documents, ou créer une liste plate de documents auxquels vous pouvez affecter une étiquette dans Studio.
L’apprentissage d’un classifieur personnalisé nécessite la sortie du modèle de disposition pour chaque document de votre jeu de données. Exécuter la disposition dans tous les documents avant le processus d’apprentissage du modèle.
Enfin, passez en revue les paramètres de votre projet et sélectionnez Créer un projet pour créer un nouveau projet. Vous devez maintenant vous trouver dans la fenêtre d’étiquetage et voir les fichiers de votre jeu de données.

Étiqueter vos données

Dans votre projet, vous devez uniquement étiqueter chaque document avec l’étiquette de classe appropriée.

Capture d’écran montrant la sélection du ressource Document Intelligence.

Vous verrez dans la liste de fichiers les fichiers chargés dans le stockage, prêts à être étiquetés. Vous disposez de quelques options pour étiqueter votre jeu de données.

Si les documents sont organisés dans des dossiers, Studio vous invite à utiliser les noms des dossiers comme étiquettes. Cette étape simplifie votre étiquetage en une seule sélection.
Pour attribuer une étiquette à un document, sélectionnez la marque Ajouter une étiquette de sélection.
Sélectionner en appuyant sur Ctrl pour attribuer une étiquette à plusieurs documents

L’ensemble des documents de votre jeu de données devraient désormais être étiquetés. Si vous examinez le compte de stockage, vous trouverez des fichiers .labels.json qui correspondent à chaque document de votre jeu de données d’apprentissage et un nouveau fichier class-name.json pour chaque classe étiquetée. Ce jeu de données d’apprentissage est envoyé pour l’apprentissage du modèle.

Entraîner votre modèle

Une fois votre jeu de données étiqueté, vous êtes prêt pour l’apprentissage de votre modèle. Sélectionnez le bouton Apprentissage en haut à droite.

Dans la boîte de dialogue Entraîner le modèle, fournissez un ID de classifieur unique et éventuellement une description. L’ID de classifieur accepte un type de données String.
Sélectionnez Apprentissage pour initier le processus d’apprentissage.
L’apprentissage des modèles s’effectue en quelques minutes.
Accédez au menu Modèles pour afficher l’état de l’opération d’apprentissage.

Tester le modèle

Une fois l’apprentissage du modèle effectué, vous pouvez tester votre modèle en le sélectionnant dans la page de liste des modèles.

Sélectionnez le modèle et sélectionnez le bouton Test.
Ajoutez un nouveau fichier en recherchant ou en déposant un fichier dans le sélecteur de documents.
Une fois un fichier sélectionné, cliquez sur le bouton Analyser pour tester le modèle.
Les résultats du modèle s’affichent avec la liste des documents identifiés, un score de confiance pour chaque document identifié et la plage de pages pour chacun des documents identifiés.
Validez votre modèle en évaluant les résultats de chaque document identifié.

Formation d’un classifieur personnalisé à l’aide du Kit de développement logiciel (SDK) ou de l’API

Le Studio orchestre les appels API pour vous permettre de former un classificateur personnalisé. Le jeu de données d’entraînement classifieur nécessite la sortie de l’API de disposition qui correspond à la version de l’API pour votre modèle de formation. L’utilisation des résultats de disposition d’une version antérieure de l’API peut entraîner un modèle avec une précision inférieure.

Studio génère les résultats de disposition de votre jeu de données de formation si le jeu de données ne contient pas de résultats de disposition. Lorsque vous utilisez l’API ou le SDK pour former un classifieur, vous devez ajouter les résultats de disposition aux dossiers contenant les documents individuels. Les résultats de la disposition doivent être au format de la réponse de l’API lors de l’appel direct de la disposition. Le modèle objet du Kit de développement logiciel (SDK) est différent, assurez-vous que les layout results sont les résultats de l’API et non les SDK response.

Résoudre les problèmes

Le modèle de classification nécessite les résultats du modèle de disposition pour chaque document d’entraînement. Si vous ne fournissez pas les résultats de la mise en page, le Studio tente d'exécuter le modèle de mise en page pour chaque document avant de former le classificateur. Ce processus est limité et peut entraîner une réponse 429.

Dans Studio, avant l’entraînement avec le modèle de classification, exécutez le modèle de disposition sur chaque document et chargez-le dans le même emplacement que le document d’origine. Une fois les résultats de la disposition ajoutés, vous pouvez entraîner le modèle du classifieur avec vos documents.

Étapes suivantes

En savoir plus sur les types de modèles personnalisés

En savoir plus sur la précision et la confiance des modèles personnalisés