Comment traiter du contenu avec Syntex

Effectué

Comme Contoso Electronics, votre organisation possède déjà de nombreux documents et vous souhaitez savoir comment utiliser Syntex pour optimiser le processus de gestion. Cette unité décrit comment Syntex vous aidera dans les étapes 2, 3 et 4 du cycle de vie du contenu : classifier le contenu, extraire des métadonnées et appliquer l’étiquetage sous l’angle de Contoso Electronics.

Diagramme d’un cycle de vie de contenu classique avec les phases 2, 3 et 4 mises en évidence comme traitement du contenu Syntex.

Vous apprenez :

  • Types de modèles de traitement de documents fournis par Syntex
  • Fonctionnalités, exigences et restrictions de chaque modèle
  • Processus classique d’analyse des besoins, de configuration et d’apprentissage d’un modèle

Avant de commencer, nous vous recommandons de configurer le « modèle de site d’équipe de gestion des contrats SharePoint » sur votre site SharePoint. À l’aide de ce modèle, vous pouvez vous entraîner avec des exemples de fichiers, de modèles, de bibliothèques et de modèles fournis avec ce modèle.

Capture d’écran de la sélection du modèle de gestion des contrats.

Modèles de traitement de documents

La compréhension du contenu dans Microsoft Syntex commence par les modèles de traitement de document. Les modèles de traitement de documents vous permettent d’identifier et de classer les documents chargés dans les bibliothèques de documents SharePoint, puis d’extraire les informations dont vous avez besoin de chaque fichier. Selon les fonctionnalités et les objectifs des documents, Syntex vous fournit différents modèles pour traiter les documents. Il existe deux catégories de modèles de traitement de documents : les modèles prédéfinis et les modèles personnalisés.

Examinons les faits clés des modèles dans chaque catégorie.

Modèles préconçus

Tout d’abord, Syntex est fourni avec trois modèles prédéfinis : modèle de contrats, modèle de factures et modèle de reçus, respectivement, pour analyser et extraire des informations clés à partir des documents de contrat, pour traiter les factures de vente et les reçus. Ces modèles prédéfinis sont préconfigurés et préformés. Au lieu de partir de zéro pour générer votre modèle, vous pouvez commencer par analyser un fichier par rapport au modèle prédéfini et identifier les champs que vous souhaitez extraire. Les deux modèles fonctionnent sur les fichiers dans les types de fichiers suivants : .bmp, .jpeg, .pdf, .png et .tiff.

Traitement des contrats

Le modèle de traitement des contrats analyse et extrait les informations clés des documents contractuels. Le modèle de traitement prédéfini des contrats reconnaît les contrats dans différents formats et extrait des informations de contrat clés, telles que le nom et l’adresse du client, la durée du contrat et la date de renouvellement.

Traitement des factures

Le modèle de traitement des factures traite les factures pour extraire des informations clés. Le modèle prédéfini de traitement des factures fonctionne sur les documents PDF et les fichiers image, mais prend uniquement en charge les factures en anglais des États-Unis.

Traitement des reçus

Utilisez le modèle de traitement des reçus pour obtenir des informations importantes à partir de reçus imprimés ou manuscrits. Ce modèle prédéfini de traitement des reçus fonctionne sur les documents PDF et les fichiers image, mais prend uniquement en charge les reçus de vente en anglais en provenance d’Australie, du Canada, de Grande-Bretagne, d’Inde et des États-Unis.

Utilisation de modèles prédéfinis

Pour utiliser des modèles prédéfinis, commencez par créer le modèle. Ensuite, vous chargez un exemple de fichier à comparer au modèle prédéfini. Vous devez indiquer au modèle quelles informations doivent être extraites du document (sélectionnez extracteurs). Une fois que vous avez sélectionné des extracteurs, vous pouvez enregistrer le modèle et l’appliquer à la bibliothèque de documents. Les données clés extraites par les extracteurs s’affichent dans la bibliothèque de documents.

Modèles personnalisés

Le plus souvent, vos documents ne sont pas des contrats, des factures et des reçus. Vous devez créer des modèles personnalisés pour traiter ces documents. Il existe trois types de modèles personnalisés : modèle de traitement de document structuré, modèle de traitement de document de forme libre et modèle de traitement de document non structuré. Chacun fonctionne mieux avec certains types de documents en termes de structure d’informations, de format de fichier et de langue prise en charge. Les coûts, les exigences d’utilisation de chaque modèle et les efforts de configuration varient également selon le type de modèle.

Modèle de traitement de document structuré

Un modèle de traitement de document structuré fonctionne mieux lorsque les informations contenues dans le document sont stockées dans un format de tableau, tel que des formulaires et des factures. Ce modèle personnalisé fonctionne sur les documents PDF et les fichiers image. Il prend en charge un large éventail de langages et utilise la méthode layout pour classifier et extraire des informations.

Modèle de traitement de document de forme libre

Un modèle de traitement de document de forme libre fonctionne mieux sur les documents non structurés et de forme libre où les formats peuvent être différents, mais un contenu similaire existe dans tous les documents. Ce modèle personnalisé fonctionne sur les documents PDF et les fichiers image, mais il ne prend actuellement en charge que les documents en anglais. Ce modèle utilise la méthode de sélection de forme libre pour classifier et extraire des informations.

Remarque

Les modèles de traitement de documents structurés et de traitement de documents de forme libre s’appuient sur Power Platform. Vous pouvez vérifier la disponibilité de Power Platform avant de décider d’utiliser ces deux modèles. Les deux modèles nécessitent des crédits AI Builder. Chaque « siège » sous licence Microsoft Syntex est fourni avec 3 500 crédits avec la possibilité d’en acheter davantage si nécessaire.

Modèle de traitement de document non structuré

Si vos documents ont différentes structures de contenu mais contiennent des informations clés similaires, vous pouvez envisager d’utiliser le modèle de traitement de document non structuré. Parmi les trois modèles personnalisés, le modèle de traitement de document non structuré prend en charge la plus large gamme de types de documents. Ce modèle prend en charge les langues latines, notamment l’anglais, le français, l’allemand, l’italien et l’espagnol. Il utilise la méthode d’enseignement pour effectuer l’apprentissage des fichiers. Le modèle de traitement de document non structuré est disponible dans toutes les régions.

La vidéo suivante fournit une vue d’ensemble rapide sur ce qu’est un modèle de traitement de document non structuré :

Tous les modèles

Pour tous les modèles, vous devez d’abord charger un ou plusieurs exemples de fichiers pour entraîner le modèle. Toutefois, différents modèles utilisent différentes méthodes d’entraînement et prennent en charge différents ensembles de types de documents et de langages. En outre, pour certains modèles, vous devez tenir compte du fait qu’ils peuvent ne pas fonctionner dans certaines régions, si Power Platform et AI Builder ne sont pas disponibles dans la région. Consultez plus d’informations sur les exigences et les limitations de chaque modèle de traitement de document.

Rappel :

  • Les modèles créés de manière centralisée sont appelés modèles d’entreprise et localement en tant que modèles locaux.
  • Vous pouvez appliquer des modèles d’entreprise à plusieurs bibliothèques, alors que vous ne pouvez appliquer des modèles locaux qu’à une seule bibliothèque.
  • Si un modèle a un score de confiance faible, chargez des exemples de fichiers supplémentaires et réentraînez le modèle.

Avant de commencer à créer des modèles

  • Réfléchissez aux informations que vous devez extraire.
  • Si vous mettez à jour une forme libre ou un modèle structuré Syntex, n’oubliez pas de publier ces modifications pour les rendre actives. Dans la page des détails du modèle, sélectionnez la dernière version entraînée, puis sélectionnez Publier.
  • Si vous mettez à jour un modèle Syntex tel que l’ajout ou la suppression d’extracteurs, n’oubliez pas de synchroniser le modèle avec la bibliothèque où il est affecté. L’action de synchronisation met à jour le type de contenu et les colonnes en conséquence.

Balisage de document

En plus des modèles de traitement de documents, Syntex vous donne la possibilité d’étiqueter automatiquement des documents avec l’IA. Pour les images, le balisage d’images stocke des mots clés descriptifs extraits par l’IA dans la colonne Étiquettes d’image, ce qui facilite la recherche, le tri, le filtrage et la gestion des images. Pour les autres documents pris en charge, le balisage de taxonomie stocke les termes configurés dans votre magasin de termes dans la colonne taxonomie , ce qui facilite la recherche, le tri, le filtrage et la gestion de ces documents.

Reconnaissance optique des caractères

Le service OCR dans Syntex extrait le texte imprimé ou manuscrit d’images et de documents, puis les indexe dans la recherche. Ce service vous permet de trouver rapidement et avec précision les mots clés et les expressions que vous recherchez.

Contoso Electronics optimise la vérification de la qualité des documents avec le modèle de traitement des documents structuré

Voyons maintenant comment Contoso Electronics identifie son approche pour optimiser son processus de vérification de la qualité des documents.

Identifier le scénario

Contoso Electronics, une grande entreprise qui opère dans plusieurs pays/régions, souhaite s’assurer que tous ses documents sont conformes à ce que les clients attendent dans chaque domaine spécifique. Cela inclut la recherche de choses telles que les conceptions techniques, les processus et s’assurer que les commandes des clients sont exactes. Fondamentalement, il s’agit de s’assurer qu’ils suivent les règles et que tout est dans l’ordre.

Dans le passé, les processeurs de documents chez Contoso Electronics faisaient des vérifications de qualité manuellement, ce qui coûtait du temps et des ressources précieux. Maintenant, avec Syntex, les processeurs de documents espèrent que les informations clés peuvent être capturées automatiquement à partir de chaque document associé au projet, ce qui rend les vérifications de qualité plus rapides et plus faciles.

Décider de l’approche

Pour implémenter Syntex pour la vérification de la qualité des documents de Contoso, la première étape consiste à identifier le modèle de traitement des documents à utiliser. La direction demande aux services informatiques de travailler avec les processeurs de documents de divers projets et emplacements satellites pour prendre la décision. L’équipe analyse d’abord les types de documents Contoso pour la vérification de la qualité, leurs formats, la structure de contenu et les langues.

L’équipe découvre bientôt que les documents chez Contoso Electronics sont disponibles dans de nombreux formats, tels que des documents PDF, des images, des documents Microsoft Word, des e-mails et des pages html. Toutefois, les principaux types de documents faisant l’objet d’un contrôle de qualité sont des fichiers PDF et des images numérisées dans des formats .jpeg. Étant donné que Contoso Electronics est une entreprise multinationale avec des projets provenant du monde entier, de nombreux documents sont dans des langues de l’alphabet latin ou dans des langues non alphabétiques. En outre, la plupart de ces documents ont des structures et des dispositions similaires. Selon la liste des fonctionnalités de la table de comparaison de chaque modèle personnalisé, l’équipe constate que le modèle de traitement de document structuré est le modèle approprié à utiliser.

Configurer Syntex

Ensuite, le service informatique doit vérifier que Power Platform et AI Builder sont disponibles à chaque emplacement satellite Contoso Electronics. Après avoir confirmé que tous les emplacements satellites disposent de Power Platform et d’AI Builder, le service informatique commence à configurer Syntex. Contoso Electronics a configuré l’environnement Microsoft 365 MultiGéographique. Cela signifie qu’ils doivent contacter le support Microsoft, car ils souhaitent utiliser le modèle de traitement de documents structuré dans tous ses emplacements satellites. En fonction des besoins de traitement des documents à partir de chaque emplacement satellite et siège social, l’équipe décide également d’un nombre initial de licences Syntex qu’elle doit obtenir.

L’équipe examine également le coût de l’exécution du modèle. Le traitement de document structuré utilise des crédits AI Builder. Chaque licence Syntex peut utiliser 3 500 crédits par mois avec une allocation maximale de 1 million de crédits par mois et par organisation. Une allocation de 1 million de crédits permet le traitement de 2 000 pages de fichiers. Bien que les crédits inutilisés ne se reportent pas d’un mois à l’autre, après avoir calculé les crédits mensuels estimés avec la calculatrice AI Builder, l’équipe décide que les crédits par défaut doivent être suffisants. Le service informatique crée ensuite un centre de contenu et ajoute des processeurs de documents en tant qu’autres administrateurs au site du centre de contenu.

Créer et entraîner le modèle

Chez Contoso Electronics, les processeurs de documents peuvent désormais créer leurs propres modèles de traitement de documents structurés locaux. Ils entraînent ces modèles pour analyser des documents structurés, tels que des contrats d’ingénierie, et extraire des identificateurs clés tels que les noms de clients, les numéros de projet, les numéros de document, l’état et les approbateurs. Pour garantir la conformité et la cohérence des documents, les processeurs de documents peuvent entraîner le modèle à étiqueter automatiquement les documents avec des étiquettes de rétention et de confidentialité (à venir plus tard en 2023).

Après l’apprentissage du modèle et son utilisation sur les documents, de nouvelles colonnes sont générées pour le nom du fournisseur, le numéro de projet et le numéro de document en fonction des informations extraites des documents. Le modèle étiquet également automatiquement les documents avec des étiquettes de rétention et de confidentialité à mesure qu’ils sont appliqués.

Dans l’unité suivante, nous allons examiner comment un gestionnaire de contrats chez Contoso Electronics utilise la requête de contenu, les règles et d’autres outils pour rechercher des informations à partir des colonnes générées. Nous allons également voir comment combiner Syntex avec d’autres outils pour automatiser le flux de travail.