Bewerken

Delen via


Documentverwerking automatiseren met AI-documentinformatie

Azure AI Search
Azure AI services
Azure Cosmos DB
Azure AI-documentinformatie
Azure Machine Learning

In dit artikel wordt een schaalbare en veilige oplossing beschreven voor het bouwen van een pijplijn voor geautomatiseerde documentverwerking. De oplossing maakt gebruik van AI Document Intelligence voor de gestructureerde extractie van gegevens. NLP-modellen (Natural Language Processing) en aangepaste modellen verrijken de gegevens.

Architectuur

Architectuurdiagram dat laat zien hoe gegevens stromen door de extractie-, verrijkings- en analysefasen van documentverwerking.

Een Visio-bestand van deze architectuur downloaden.

Gegevensstroom

In de volgende secties worden de verschillende fasen van het proces voor gegevensextractie beschreven.

Gegevensopname en extractie

  1. Documenten worden opgenomen via een browser aan de front-end van een webtoepassing. De documenten bevatten afbeeldingen of hebben een PDF-indeling. Azure-app Service fungeert als host voor een back-endtoepassing. De oplossing stuurt de documenten naar die toepassing via Azure-toepassing Gateway. Deze load balancer wordt uitgevoerd met Azure Web Application Firewall, waarmee de toepassing wordt beschermd tegen veelvoorkomende aanvallen en beveiligingsproblemen.

  2. De back-endtoepassing plaatst een aanvraag op een Azure AI Document Intelligence REST API-eindpunt dat gebruikmaakt van een van deze modellen:

    Het antwoord van Azure AI Document Intelligence bevat onbewerkte OCR-gegevens (Optical Character Recognition) en gestructureerde extracties.

  3. De App Service-back-endtoepassing gebruikt de betrouwbaarheidswaarden om de extractiekwaliteit te controleren. Als de kwaliteit lager is dan een opgegeven drempelwaarde, markeert de app de gegevens voor handmatige verificatie. Wanneer de extractiekwaliteit voldoet aan de vereisten, worden de gegevens in Azure Cosmos DB ingevoerd voor downstreamtoepassingsverbruik. De app kan ook de resultaten retourneren naar de front-endbrowser.

  4. Andere bronnen bieden afbeeldingen, PDF-bestanden en andere documenten. Bronnen zijn e-mailbijlagen en FTP-servers (File Transfer Protocol). Hulpprogramma's zoals Azure Data Factory en AzCopy dragen deze bestanden over naar Azure Blob Storage. Azure Logic Apps biedt pijplijnen voor het automatisch extraheren van bijlagen uit e-mailberichten.

  5. Wanneer een document Blob Storage invoert, wordt een Azure-functie geactiveerd. De functie doet het volgende:

    • Hiermee plaatst u een aanvraag op het relevante vooraf gebouwde Eindpunt van Azure AI Document Intelligence.
    • Het antwoord wordt ontvangen.
    • Evalueert de extractiekwaliteit.
  6. De geëxtraheerde gegevens voeren Azure Cosmos DB in.

Gegevensverrijking

De pijplijn die wordt gebruikt voor gegevensverrijking, is afhankelijk van de use-case.

  1. Gegevensverrijking kan de volgende NLP-mogelijkheden bevatten:

    • NER (Named Entity Recognition)
    • De extractie van persoonlijke gegevens, sleuteltermen, statusinformatie en andere domeinafhankelijke entiteiten

    De web-app om de gegevens te verrijken:

  2. Aangepaste modellen voeren fraudedetectie, risicoanalyse en andere soorten analyses uit op de gegevens:

    • Azure Machine Learning-services trainen en implementeren de aangepaste modellen.
    • De geëxtraheerde gegevens worden opgehaald uit Azure Cosmos DB.
    • De modellen leiden inzichten af van de gegevens.

    Deze mogelijkheden bestaan voor deductie:

  3. De verrijkte gegevens worden ingevoerd in Azure Cosmos DB.

Analyses en visualisaties

  1. Toepassingen gebruiken de onbewerkte OCR, gestructureerde gegevens van Azure AI Document Intelligence-eindpunten en de verrijkte gegevens van NLP:

    • Power BI geeft de gegevens weer en geeft er rapporten over.
    • De gegevens werken als bron voor Azure Cognitive Search.
    • Andere toepassingen verbruiken de gegevens.

Onderdelen

  • App Service is een PaaS-aanbieding (Platform as a Service) in Azure. U kunt App Service gebruiken om webtoepassingen te hosten die u handmatig of automatisch kunt in- of uitschalen. De service ondersteunt verschillende talen en frameworks, zoals ASP.NET, ASP.NET Core, Java, Ruby, Node.js, PHP en Python.

  • Application Gateway is een load balancer van laag 7 (toepassingslaag) die verkeer naar webtoepassingen beheert. U kunt Application Gateway uitvoeren met Azure Web Application Firewall om webtoepassingen te beschermen tegen veelvoorkomende aanvallen en beveiligingsproblemen.

  • Azure Functions is een serverloos rekenplatform dat u kunt gebruiken om toepassingen te bouwen. Met Functions kunt u triggers en bindingen gebruiken om te reageren op wijzigingen in Azure-services, zoals Blob Storage en Azure Cosmos DB. Functies kunnen geplande taken uitvoeren, gegevens in realtime verwerken en berichtenwachtrijen verwerken.

  • Azure AI Document Intelligence maakt deel uit van Azure AI-services. Azure AI Document Intelligence biedt een verzameling vooraf gebouwde eindpunten voor het extraheren van gegevens uit facturen, documenten, ontvangstbewijzen, id-kaarten en visitekaartjes. Deze service wijst elk stukje geëxtraheerde gegevens toe aan een veld als sleutel-waardepaar. Azure AI Document Intelligence extraheert ook tabelinhoud en -structuur. De uitvoerindeling is JSON.

  • Azure Storage is een cloudopslagoplossing die object-, blob-, bestands-, schijf-, wachtrij- en tabelopslag omvat.

  • Blob Storage is een service die deel uitmaakt van Azure Storage. Blob Storage biedt geoptimaliseerde cloudobjectopslag voor grote hoeveelheden ongestructureerde gegevens.

  • Azure Data Lake Storage is een schaalbare, veilige Data Lake voor high-performance analyseworkloads. De gegevens zijn doorgaans afkomstig van meerdere heterogene bronnen en kunnen gestructureerd, semigestructureerd of ongestructureerd zijn. Azure Data Lake Storage Gen2 combineert Azure Data Lake Storage Gen1-mogelijkheden met Blob Storage. Als een oplossing van de volgende generatie biedt Data Lake Storage Gen2 semantiek van het bestandssysteem, beveiliging op bestandsniveau en schaal. Maar het biedt ook de gelaagde opslag, hoge beschikbaarheid en mogelijkheden voor herstel na noodgevallen van Blob Storage.

  • Azure Cosmos DB is een volledig beheerde, zeer responsieve, schaalbare NoSQL-database. Azure Cosmos DB biedt beveiliging op bedrijfsniveau en biedt ondersteuning voor API's voor veel databases, talen en platforms. Voorbeelden hiervan zijn SQL, MongoDB, Gremlin, Table en Apache Cassandra. Serverloze, automatische schaalopties in Azure Cosmos DB beheren efficiënt de capaciteitsvereisten van toepassingen.

  • AI Language biedt veel NLP-services die u kunt gebruiken om tekst te begrijpen en te analyseren. Sommige van deze services kunnen worden aangepast, zoals aangepaste NER, aangepaste tekstclassificatie, begrip van gesprekstaal en antwoord op vragen.

  • Machine Learning is een open platform voor het beheren van de ontwikkeling en implementatie van machine learning-modellen op schaal. Machine Learning is geschikt voor vaardigheidsniveaus van verschillende gebruikers, zoals gegevenswetenschappers of bedrijfsanalisten. Het platform ondersteunt veelgebruikte open frameworks en biedt geautomatiseerde featurization en algoritmeselectie. U kunt modellen implementeren op verschillende doelen. Voorbeelden hiervan zijn AKS, Azure Container Instances als een webservice voor realtime deductie op schaal en Azure Virtual Machine voor batchgewijs scoren. Beheerde eindpunten in Machine Learning abstraheren de vereiste infrastructuur voor realtime- of batchmodeldeductie.

  • AKS is een volledig beheerde Kubernetes-service waarmee u eenvoudig toepassingen in containers kunt implementeren en beheren. AKS biedt serverloze Kubernetes-technologie, een geïntegreerde CI/CD-ervaring (continue integratie en continue levering) en beveiliging en governance op bedrijfsniveau.

  • Power BI is een verzameling softwareservices en apps die analysegegevens weergeven.

  • Azure Cognitive Search is een cloudzoekservice die infrastructuur, API's en hulpprogramma's levert voor zoeken. U kunt Azure Cognitive Search gebruiken om zoekervaringen te bouwen op privé-, heterogene inhoud in web-, mobiele en bedrijfstoepassingen.

Alternatieven

Scenariodetails

Het automatiseren van documentverwerking en gegevensextractie is een integrale taak in organisaties in alle brancheverticalen. AI is een van de bewezen oplossingen in dit proces, hoewel het bereiken van 100 procent nauwkeurigheid een verre realiteit is. Maar het gebruik van AI voor digitalisering in plaats van uitsluitend handmatige processen kan handmatige inspanning verminderen met maximaal 90 procent.

Optische tekenherkenning (OCR) kan inhoud extraheren uit afbeeldingen en PDF-bestanden, die deel uitmaken van de documenten die organisaties gebruiken. Dit proces maakt gebruik van trefwoorden zoeken en reguliere expressiekoppeling. Met deze mechanismen worden relevante gegevens uit volledige tekst geëxtraheerd en vervolgens gestructureerde uitvoer gemaakt. Deze aanpak heeft nadelen. Voor het reviseren van het proces na extractie om te voldoen aan gewijzigde documentindelingen, is veel onderhoud vereist.

Potentiële gebruikscases

Deze oplossing is ideaal voor de financiële sector. Het kan ook van toepassing zijn op de automobiel-, reis- en gastvrijheidsindustrie. De volgende taken kunnen profiteren van deze oplossing:

  • Onkostendeclaratie goedkeuren
  • Facturen, ontvangsten en facturen voor verzekeringsclaims en financiële controles verwerken
  • Verwerkingsclaims met facturen, kwijtingsoverzichten en andere documenten
  • Goedkeuringen voor werk (SoW) automatiseren
  • Id-extractie automatiseren voor verificatiedoeleinden, zoals bij paspoorten of rijbewijs
  • Het proces van het invoeren van visitekaartjesgegevens in bezoekersbeheersystemen automatiseren
  • Aankooppatronen identificeren en financiële documenten dupliceren voor fraudedetectie

Overwegingen

Met deze overwegingen worden de pijlers van het Azure Well-Architected Framework geïmplementeerd. Dit is een set richtlijnen die kunnen worden gebruikt om de kwaliteit van een workload te verbeteren. Zie Microsoft Azure Well-Architected Framework voor meer informatie.

Houd rekening met deze punten wanneer u deze oplossing gebruikt.

Beschikbaarheid

De beschikbaarheid van de architectuur is afhankelijk van de Azure-services waaruit de oplossing bestaat:

  • Azure AI Document Intelligence maakt deel uit van Azure AI-services. Zie Sla (Service Level Agreement) voor Azure AI-services voor de beschikbaarheidsgarantie van deze service.

  • AI-taal maakt deel uit van Azure AI-services. Zie sla voor Azure AI-services voor de beschikbaarheidsgarantie voor deze services.

  • Azure Cosmos DB biedt hoge beschikbaarheid door vier replica's van gegevens binnen elke regio te onderhouden en door gegevens in verschillende regio's te repliceren. De exacte beschikbaarheidsgarantie is afhankelijk van of u repliceert binnen één regio of in meerdere regio's. Zie Hoge beschikbaarheid bereiken met Azure Cosmos DB voor meer informatie.

  • Blob Storage biedt redundantieopties waarmee hoge beschikbaarheid wordt gegarandeerd. U kunt een van deze methoden gebruiken om gegevens drie keer te repliceren in een primaire regio:

    • Op één fysieke locatie voor lokaal redundante opslag (LRS).
    • In drie beschikbaarheidszones die gebruikmaken van verschillende beschikbaarheidsparameters. Zie Duurzaamheid en beschikbaarheidsparameters voor meer informatie. Deze optie werkt het beste voor toepassingen waarvoor hoge beschikbaarheid is vereist.
  • Zie deze resources voor de beschikbaarheidsgaranties van andere Azure-services in de oplossing:

Schaalbaarheid

Beveiliging

Beveiliging biedt garanties tegen opzettelijke aanvallen en misbruik van uw waardevolle gegevens en systemen. Zie Overzicht van de beveiligingspijler voor meer informatie.

  • Azure Web Application Firewall helpt uw toepassing te beschermen tegen veelvoorkomende beveiligingsproblemen. Deze Application Gateway-optie maakt gebruik van OWASP-regels (Open Worldwide Application Security Project) om aanvallen zoals scripting op meerdere sites, sessiekapingen en andere aanvallen te voorkomen.

  • Als u de Beveiliging van App Service wilt verbeteren, kunt u de volgende opties overwegen:

    • App Service heeft toegang tot resources in Azure Virtual Network via integratie van virtuele netwerken.
    • U kunt App Service gebruiken in een App Service-omgeving, die u implementeert in een toegewezen virtueel netwerk. Deze aanpak helpt bij het isoleren van de connectiviteit tussen App Service en andere resources in het virtuele netwerk.

    Zie Beveiliging in Azure-app Service voor meer informatie.

  • Blob Storage en Azure Cosmos DB versleutelen data-at-rest. U kunt deze services beveiligen met behulp van service-eindpunten of privé-eindpunten.

  • Azure Functions ondersteunt integratie van virtuele netwerken. Met deze functionaliteit hebben functie-apps toegang tot resources in een virtueel netwerk. Zie Azure Functions-netwerkopties voor meer informatie.

  • U kunt Azure AI Document Intelligence en AI Language configureren voor toegang vanuit specifieke virtuele netwerken of vanuit privé-eindpunten. Deze services versleutelen data-at-rest. U kunt abonnementssleutels, tokens of Microsoft Entra ID gebruiken om aanvragen voor deze services te verifiëren. Zie Aanvragen verifiëren voor Azure AI-services voor meer informatie.

  • Machine Learning biedt veel beveiligingsniveaus:

Tolerantie

Kostenoptimalisatie

Kostenoptimalisatie gaat over manieren om onnodige uitgaven te verminderen en operationele efficiëntie te verbeteren. Zie Overzicht van de pijler kostenoptimalisatie voor meer informatie.

De kosten voor het implementeren van deze oplossing zijn afhankelijk van de onderdelen die u gebruikt en welke opties u voor elk onderdeel kiest.

Veel factoren kunnen van invloed zijn op de prijs van elk onderdeel:

  • Het aantal documenten dat u verwerkt
  • Het aantal gelijktijdige aanvragen dat uw toepassing ontvangt
  • De grootte van de gegevens die u na verwerking opslaat
  • Uw implementatieregio

Deze resources bieden informatie over prijsopties voor onderdelen:

Nadat u een prijscategorie voor elk onderdeel hebt gekozen, gebruikt u de Azure-prijscalculator om de kosten van de oplossing te schatten.

Medewerkers

Dit artikel wordt onderhouden door Microsoft. De tekst is oorspronkelijk geschreven door de volgende Inzenders.

Hoofdauteur:

Volgende stappen