Partager via


Extraire et mapper des informations à partir de contenu non structuré

Azure AI services
Azure Cosmos DB
Azure Container Apps

Idées de solution

Cet article présente une idée de solution. Votre architecte cloud peut s’appuyer sur ces conseils pour visualiser les principaux composants d’une implémentation typique de cette architecture. Utilisez cet article comme point de départ pour concevoir une solution bien conçue qui répond aux exigences spécifiques de votre charge de travail.

Cette architecture décrit une solution de traitement de contenu qui extrait des données et applique des schémas sur le contenu multimodal à l’aide du scoring de confiance et de la validation des utilisateurs. Il traite les revendications, les factures, les contrats et d’autres documents en extrayant des informations à partir de contenu non structuré et en les mappant aux formats structurés. Cette architecture applique Azure AI Foundry, Azure AI Content Understanding, Azure OpenAI dans les modèles Azure AI Foundry et d’autres services Azure pour transformer de grands volumes de contenu non structuré via des pipelines de traitement pilotés par les événements.

Cette architecture montre comment créer des systèmes évolutifs pour le traitement du contenu. Les systèmes gèrent le texte, les images, les tableaux et les graphiques, et incluent des contrôles de qualité automatiques et une révision humaine pour les flux de travail de documents métier.

Architecture

Diagramme montrant une architecture de traitement de contenu classique.

Téléchargez un fichier Visio de cette architecture.

Flux de travail

Le workflow suivant correspond au diagramme précédent :

  1. Les utilisateurs chargent du contenu multimodal, comme des documents, des images, des contrats et des factures, via l’interface web front-end. Le contenu est envoyé avec des exigences de traitement spécifiques et des schémas cibles.

  2. Le site web Azure Container Apps reçoit la demande de chargement de contenu et appelle l’API de traitement hébergée dans Container Apps. Les deux composants sont des solutions codées personnalisées adaptées à ce scénario. L’API sélectionne le pipeline de traitement approprié et lance des workflows d’analyse de contenu.

  3. Container Apps gère le flux de travail de traitement. Il connecte Content Understanding, qui effectue une reconnaissance optique de caractères (OCR) et extrait du texte, avec Azure OpenAI dans les modèles Foundry. Ces modèles mappent les schémas et convertissent les données extraites en formats structurés.

  4. Content Understanding effectue l’OCR basé sur machine learning pour une extraction de texte efficace à partir de différents formats de contenu, y compris les images, les tableaux et les graphiques.

  5. Azure OpenAI dans Les modèles Foundry avec GPT Vision traite le contenu extrait, le mappe à des schémas personnalisés ou définis par le secteur et génère une sortie JSON structurée avec un scoring de confiance.

  6. Le code d’orchestration dans Container Apps stocke les résultats traités, les scores de confiance, les mappages de schéma et les données de traitement historique pour les pistes d’audit et l’amélioration continue dans Azure Cosmos DB.

  7. Le code d’orchestration dans Container Apps utilise le Stockage Blob Azure pour stocker les documents sources, les artefacts de traitement intermédiaire et les sorties structurées finales pour la persistance et la récupération fiables des données.

  8. Stockage File d’attente Azure gère les flux de travail de traitement pilotés par les événements entre les services de cette solution. Cette gestion garantit une coordination fiable de la gestion et du traitement des messages entre les composants du pipeline.

  9. Le site web du moniteur du processeur de contenu affiche les résultats traités pour les utilisateurs via l’interface web. Les utilisateurs peuvent passer en revue la sortie JSON structurée, corriger toutes les inexactitudes, ajouter des commentaires pour le contexte ou les commentaires, et enregistrer les résultats validés finals dans le système.

  10. Le processeur de contenu surveille le site web alimente le traitement des métriques et des données de commentaires utilisateur directement dans les tableaux de bord Power BI. Les données et métadonnées traitées stockées dans Azure Cosmos DB fournissent une analyse complète sur le pipeline de traitement du contenu. Ces insights incluent les indicateurs de performance clés, les taux de réussite, les distributions de types de documents, les tendances de score de confiance, les modèles de correction des utilisateurs et d’autres métriques opérationnelles qui prennent en charge l’optimisation pilotée par les données du pipeline de traitement de contenu.

Composants

  • Container Apps est une plateforme de conteneur serverless que vous pouvez utiliser pour exécuter des microservices et des applications conteneurisées sur une plateforme serverless. Dans cette architecture, Container Apps héberge l’API de pipeline de traitement qui orchestre l’analyse du contenu, coordonne les services IA et gère les flux de travail d’extraction et de transformation. Le code qui s’exécute est personnalisé codé par votre équipe d’ingénierie logicielle.

  • Azure AI Foundry est un service IA managé qui fournit l’accès aux modèles de langage avancés pour le traitement et la génération du langage naturel. Dans cette architecture, Azure AI Foundry fournit la base du déploiement et de la gestion des modèles IA utilisés dans le pipeline de traitement de contenu et est la passerelle dans les services IA connectés, comme Content Understanding.

    • Azure OpenAI dans Foundry Models est un composant d’Azure AI Foundry qui fournit des modèles de langage, notamment GPT-4o et GPT-4o mini. Dans cette architecture, les modèles sont hébergés en tant que service dans Azure AI Foundry. Ces modèles effectuent une transformation de données basée sur le schéma, mappent le contenu extrait aux formats structurés et calculent les scores de confiance pour la précision de l’extraction.

    • Content Understanding est un service IA multimodal qui analyse différents contenus multimédias, tels que l’audio, la vidéo, le texte et les images, et les transforme en données structurées et pouvant faire l’objet d’une recherche. Dans cette architecture, Content Understanding effectue avec précision l’extraction avancée d’OCR et de contenu à partir de documents multimodaux.

  • Azure Cosmos DB est un service de base de données multimodèle distribué à l’échelle mondiale qui offre une faible latence et une scalabilité élastique garantie. Dans cette architecture, Azure Cosmos DB stocke les résultats traités, les scores de confiance, les résultats de validation et les données de traitement historique pour les pistes d’audit et l’optimisation des performances.

  • Le stockage Blob est la solution de stockage d’objets de Microsoft optimisée pour stocker des quantités massives de données non structurées. Dans cette architecture, Le Stockage Blob gère les documents sources, les artefacts de traitement intermédiaire et les sorties structurées finales avec une durabilité fiable et une accessibilité globale.

  • Azure Container Registry est un service de Registre Docker géré qui stocke et gère les images conteneur. Dans cette architecture, Container Registry gère les images conteneur avec version pour les composants de pipeline de traitement. Ce système garantit des fonctionnalités de déploiement et de restauration cohérentes.

  • Power BI est une collection de services logiciels, d’applications et de connecteurs qui fonctionnent ensemble pour vous aider à créer, partager et utiliser des insights métier de la façon qui vous sert le mieux et votre organisation. Dans cette architecture, Power BI se connecte à Azure Cosmos DB et reçoit des métriques de traitement en temps réel de l’application web de supervision pour fournir une analyse complète des performances de traitement des documents, des modèles de commentaires utilisateur et des indicateurs de performance clés opérationnels.

Détails du scénario

Cette solution de traitement de contenu répond au défi d’extraire des données significatives à partir de grands volumes de contenus non structurés et multimodaux reçus quotidiennement par les organisations. Le traitement manuel traditionnel de documents tels que les contrats, les factures, les revendications et les rapports de conformité est fastidieux, sujette aux erreurs et n’est pas mis à l’échelle avec la croissance de l’entreprise. Par conséquent, les organisations sont confrontées à une qualité de données incohérente, à l’absence de normalisation et à la difficulté d’intégrer des informations extraites dans des processus métier en aval.

Cette solution utilise des services IA avancés pour extraire, transformer et valider automatiquement du contenu à partir de différents types de documents. Le système fournit un score de confiance pour permettre un traitement automatisé pour les extractions à haut niveau de confiance tout en signalant les résultats de confiance inférieure pour l’examen humain. Cette approche garantit à la fois la vitesse et la précision tout en conservant la flexibilité nécessaire pour gérer différents formats de contenu et les schémas métier personnalisés.

Cas d’usage potentiels

Traitement des services financiers

Automatisation du traitement des revendications : Extrayez les détails de la stratégie, les évaluations des dommages et les estimations de coûts des documents de réclamation d’assurance, des photos et des rapports d’ajustement à l’aide de vérifications automatisées de validation et de conformité.

Traitement des factures et des contrats : Extrayez automatiquement les informations du fournisseur, les éléments de ligne, les conditions générales et les factures et les contrats, puis mappez-les aux systèmes d’entreprise en utilisant le scoring de confiance pour les flux de travail d’approbation.

Analyse du document réglementaire : Traitez les dépôts réglementaires, les rapports de conformité et la documentation d’audit pour extraire les métriques clés et garantir l’adhésion aux réglementations financières et aux exigences de création de rapports.

Documentation sur les soins de santé

Traitement de documents cliniques : Extrayez des informations sur les patients, les diagnostics, les plans de traitement et les renseignements sur les médicaments à partir des dossiers médicaux, des rapports de laboratoire et des notes cliniques pour l’intégration des dossiers médicaux électroniques.

Automatisation de la facturation médicale : Traitez les demandes médicales, les relevés de facturation et les formulaires d’assurance pour extraire les codes de procédure, les détails des patients et les informations de couverture pour les flux de travail de facturation automatisés.

Extraction de données de recherche : Analysez les documents d’essai clinique, les documents de recherche et les formulaires de consentement des patients pour extraire des paramètres d’étude, des résultats et des données de conformité pour les flux de travail de recherche médicale.

Analyse et extraction des contrats : Traitez les contrats juridiques, les accords et les modifications pour extraire les conditions clés, les obligations, les dates et les parties pour la gestion des contrats et la surveillance de la conformité.

Découverte de documents juridiques : Analysez les brèves juridiques, les dépositions et les dossiers de cas pour extraire des faits, des citations et des preuves pertinents pour la prise en charge des litiges et la préparation des cas.

Documentation de conformité : Traitez les soumissions réglementaires, les rapports d’audit et les certificats de conformité pour extraire les exigences, les résultats et les actions correctives pour les flux de travail de gouvernance.

Fabrication et chaîne d’approvisionnement

Traitement de la documentation de qualité : Extrayez les résultats d’inspection, les données de test et les détails de certification des documents et certificats de contrôle de qualité pour le suivi de la conformité et l’amélioration des processus.

Documentation du fournisseur : Traiter les certifications des fournisseurs, les spécifications matérielles et les documents d’expédition pour extraire les données de conformité et les informations de la chaîne logistique pour les flux de travail d’approvisionnement.

Analyse des enregistrements de maintenance : Extrayez les données d’équipement, les planifications de maintenance et les historiques de réparation à partir de la documentation technique pour la maintenance prédictive et les systèmes de gestion des ressources.

Alternatives

Cette architecture inclut plusieurs composants que vous pouvez remplacer par d’autres services ou approches Azure, en fonction des exigences fonctionnelles et non fonctionnelles de votre charge de travail. Tenez compte des alternatives et compromis suivants.

Approche d’extraction de contenu

Approche actuelle : Cette solution utilise Content Understanding pour l’extraction avancée d’OCR et de contenu combinée à Azure OpenAI pour le mappage de schéma et la transformation. Cette approche offre une haute précision pour le contenu multimodal complexe avec une personnalisation flexible du schéma.

Autre approche : Utilisez Azure AI Document Intelligence pour le traitement des documents à l’aide de modèles prédéfinis pour les types de documents courants tels que les factures, les reçus et les formulaires. Cette approche offre une implémentation plus rapide pour les types de documents standard, mais moins de flexibilité pour les schémas personnalisés.

Considérez cette alternative si votre charge de travail présente les caractéristiques suivantes :

  • Vous traitez principalement les types de documents standard qui ont des formats bien définis.

  • Vous avez besoin d’un délai de commercialisation plus rapide avec des modèles d’extraction prédéfinis.

  • Vos exigences de schéma s’alignent sur les modèles d’intelligence de document standard.

  • Vous disposez de ressources de développement personnalisées limitées pour le mappage de schéma.

Traitement de l’orchestration

Approche actuelle : Cette solution utilise Container Apps pour héberger une logique de traitement personnalisée qui orchestre le pipeline d’analyse du contenu. Cette approche offre un contrôle maximal sur le traitement des flux de travail, la gestion des erreurs et l’intégration de logique métier personnalisée.

Autre approche : Utilisez Azure Logic Apps ou Azure Functions pour l’orchestration de flux de travail avec des connecteurs intégrés aux services IA. Cette approche offre des avantages visuels en matière de conception de flux de travail et de service géré, mais moins de contrôle sur la logique de traitement.

Considérez cette alternative si votre charge de travail présente les caractéristiques suivantes :

  • Vous préférez la conception de flux de travail visuel par rapport au développement de code personnalisé.

  • Vos flux de travail de traitement sont relativement simples et utilisent une logique conditionnelle standard.

  • Vous souhaitez réduire la surcharge de gestion de l’infrastructure.

  • Votre équipe a plus d’expertise dans les solutions à faible code et sans code que dans les applications conteneurisées.

Optimisation des coûts

L’optimisation des coûts se concentre sur les moyens de réduire les dépenses inutiles et d’améliorer l’efficacité opérationnelle. Pour plus d'informations, consultez Liste de contrôle de la révision de la conception pour l'optimisation des coûts.

Pour plus d’informations sur les coûts d’exécution de ce scénario, consultez l’estimation préconfigurée dans la calculatrice de prix Azure.

La tarification varie selon la région et l’utilisation. Il n’est donc pas possible de prédire les coûts exacts de votre déploiement. La plupart des ressources Azure utilisées dans cette infrastructure suivent les niveaux tarifaires basés sur l’utilisation. Toutefois, Container Registry entraîne un coût fixe par registre par jour.

Déployer ce scénario

Pour déployer une implémentation de cette architecture, suivez les étapes du dépôt GitHub.

Contributeurs

Microsoft gère cet article. Les contributeurs suivants ont écrit cet article.

Auteur principal :

Autre contributeur :

Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.

Étapes suivantes