Aangepaste modellen voor documentverwerking in Azure

Azure AI-documentinformatie

Azure AI services

Azure Logic Apps

Azure Machine Learning Studio

Azure Storage

In dit artikel worden Azure-oplossingen beschreven voor het bouwen, trainen, implementeren en gebruiken van aangepaste documentverwerkingsmodellen. Deze Azure-services bieden ook gebruikersinterfacemogelijkheden voor labelen of taggen voor tekstverwerking.

Architectuur

Een Visio-bestand van deze architectuur downloaden.

Gegevensstroom

Orchestrators zoals Azure Logic Apps, Azure Data Factory of Azure Functions nemen berichten en bijlagen op van e-mailservers en bestanden van FTP-servers of webtoepassingen.
- Met Azure Functions en Logic Apps kunt u serverloze workloads inschakelen. De service die u kiest, is afhankelijk van uw voorkeur voor servicemogelijkheden, zoals ontwikkeling, connectors, beheer en uitvoeringscontext. Zie Azure Functions en Azure Logic Apps vergelijken voor meer informatie.
- Overweeg om Azure Data Factory te gebruiken voor bulkgegevensverplaatsing.
De orchestrators verzenden opgenomen gegevens naar Azure Blob Storage of Data Lake Storage, waarbij ze de gegevens in verschillende gegevensarchieven ordenen op basis van kenmerken zoals bestandsextensies of klanten.
Document Intelligence Studio, Language Studio of Azure Machine Learning-studio tekstuele gegevens labelen en taggen en de aangepaste modellen bouwen. U kunt deze drie services onafhankelijk of in verschillende combinaties gebruiken om verschillende gebruiksvoorbeelden aan te pakken.
- Als u voor het document sleutel-waardeparen moet extraheren of een aangepaste tabel moet maken op basis van een afbeeldingsindeling of PDF, gebruikt u Document Intelligence Studio om de gegevens te taggen en het aangepaste model te trainen. Als er ook een vereiste is om het type document te identificeren voordat u het juiste extractiemodel aanroept, gebruikt u Document Intelligent Studio om de documenten te labelen.
- Voor documentclassificatie op basis van inhoud of voor domeinspecifieke entiteitextractie kunt u een aangepast tekstclassificatie- of NER-model (Named Entity Recognition) trainen in Language Studio.
- Machine Learning Studio heeft mogelijkheden voor gegevenslabels voor tekstclassificatie of entiteitsextractie die u kunt gebruiken met opensource-frameworks zoals PyTorch of TensorFlow. Azure Machine Learning-studio biedt een modelcatalogus van basismodellen. Deze basismodellen hebben mogelijkheden voor het verfijnen van verschillende taken, zoals tekstclassificatie, vragen beantwoorden en samenvatten. Als u basismodellen wilt verfijnen, gebruikt u de gebruikersinterface of code van Machine Learning Studio.
De aangepaste modellen implementeren en gebruiken voor deductie:
- Azure AI Document Intelligence heeft ingebouwde modelimplementatie. Gebruik Document Intelligence SDK's of de REST API om aangepaste modellen toe te passen voor deductie. Neem de model-id of de naam van het aangepaste model op in de URL van de Document Intelligence-aanvraag, afhankelijk van de API-versie. Document Intelligence vereist geen verdere implementatiestappen.
- Language Studio biedt een optie voor het implementeren van aangepaste taalmodellen. Haal de VOORSPELLINGs-URL van het REST-eindpunt op door het model te selecteren dat u wilt implementeren. U kunt modeldeductie uitvoeren met behulp van het REST-eindpunt of de Azure SDK-clientbibliotheken.
- Machine Learning implementeert aangepaste modellen op online- of batch-machine learning beheerde eindpunten. U kunt de Machine Learning SDK gebruiken om te implementeren in Azure Kubernetes Service (AKS) als webservice.
- Verfijnde basismodellen worden geïmplementeerd vanuit de modelcatalogus naar eindpunten voor deductie.

Onderdelen

Logic Apps maakt deel uit van Azure Integration Services. Logic Apps maakt geautomatiseerde werkstromen die apps, gegevens, services en systemen integreren. Met beheerde connectors voor services zoals Azure Storage en Microsoft 365 kunt u werkstromen activeren wanneer een bestand binnenkomt in het opslagaccount of e-mail.
Data Factory is een etl-service (managed cloud extract, transform, load) voor gegevensintegratie en -transformatie. Data Factory kan transformatieactiviteiten toevoegen aan een pijplijn die een REST-eindpunt aanroept of een notebook uitvoert op de opgenomen gegevens.
Azure Functions is een serverloze rekenservice die gebeurtenisgestuurde workloads kan hosten met kortdurende processen.
Blob Storage is de oplossing voor objectopslag voor onbewerkte bestanden in dit scenario. Blob Storage ondersteunt bibliotheken voor meerdere talen, zoals .NET, Node.js en Python. Toepassingen hebben toegang tot bestanden in Blob Storage via HTTP/HTTPS. Blob Storage heeft dynamische, statische en archieftoegangslagen ter ondersteuning van kostenoptimalisatie voor het opslaan van grote hoeveelheden gegevens.
Data Lake Storage is een set mogelijkheden die is gebouwd op Azure Blob Storage voor analyse van big data. Data Lake Storage behoudt de kosteneffectiviteit van Blob Storage en biedt functies zoals beveiliging op bestandsniveau en semantiek van bestandssysteem met hiërarchische naamruimte.
Document Intelligence maakt deel uit van Azure AI-services. Document Intelligence heeft ingebouwde mogelijkheden voor documentanalyse die u kunt gebruiken om gedrukte en handgeschreven tekst, tabellen en sleutel-waardeparen te extraheren. Document Intelligence heeft vooraf samengestelde modellen voor het extraheren van gegevens uit facturen, documenten, ontvangstbewijzen, id-kaarten en visitekaartjes. Document Intelligence heeft ook een aangepast sjabloonformuliermodel en een aangepast neuraal documentmodel dat u kunt gebruiken om aangepaste modellen te trainen en te implementeren.
Document Intelligence Studio biedt een gebruikersinterface die u kunt gebruiken om Document Intelligence-functies en -modellen te verkennen en aangepaste modellen te bouwen, taggen, trainen en implementeren.
Azure AI Language consolideert de verwerkingsservices van natuurlijke taal van Azure. De suite biedt vooraf samengestelde en aanpasbare opties. Zie de beschikbare functies van De Azure AI-taal voor meer informatie.

Language Studio biedt een gebruikersinterface voor het verkennen en analyseren van Azure AI-taalfuncties. Language Studio biedt ook opties voor het bouwen, taggen, trainen en implementeren van aangepaste modellen.
Azure Machine Learning is een open platform voor het beheren van machine learning-modelontwikkeling en -implementatie op schaal.
- Azure Machine Learning-studio biedt opties voor gegevenslabels voor afbeeldingen en tekst.
- Exporteer gelabelde gegevens als COCO - of Azure Machine Learning-gegevenssets. U kunt de gegevenssets gebruiken voor het trainen en implementeren van modellen in Azure Machine Learning-notebooks.
- Implementeer modellen in AKS als een webservice voor realtime deductie op schaal of als beheerde eindpunten voor zowel realtime als batchdeductie.

Alternatieven

U kunt meer werkstromen toevoegen aan dit scenario op basis van specifieke gebruiksvoorbeelden.

Als het document een afbeeldings- of PDF-indeling heeft, kunt u de gegevens extraheren met behulp van de Azure Computer Vision-, Document Intelligence-lees-API of opensource-bibliotheken.
U kunt document- en gesprekssamenvatting uitvoeren met behulp van het vooraf samengestelde model in Azure AI Language.
Gebruik voorverwerkingscode om stappen voor tekstverwerking uit te voeren. Deze stappen omvatten het opschonen, stoppen van woorden verwijderen, lemmatisatie, stemming en tekstsamenvatting op geëxtraheerde gegevens volgens de vereisten voor documentverwerking. U kunt de code beschikbaar maken als REST API's voor automatisering. Voer deze stappen handmatig uit of automatiseer ze door te integreren met het opnameproces van Logic Apps of Azure Functions .
U kunt Azure AI Studio gebruiken om basismodellen af te stemmen en te implementeren.

Scenariodetails

Documentverwerking is een breed gebied. Het kan lastig zijn om te voldoen aan al uw documentverwerkingsbehoeften met de vooraf gedefinieerde modellen die beschikbaar zijn in Document Intelligence en Azure AI Language. Mogelijk moet u aangepaste modellen bouwen om documentverwerking voor verschillende toepassingen en domeinen te automatiseren.

Belangrijke uitdagingen bij het aanpassen van modellen zijn onder andere:

Tekstgegevens labelen of taggen met relevante sleutel-waardepaarentiteiten om tekst te classificeren voor extractie.
Het veilig implementeren van modellen op schaal voor eenvoudige integratie met toepassingen die worden gebruikt.

Potentiële gebruikscases

De volgende gebruiksvoorbeelden kunnen profiteren van aangepaste modellen voor documentverwerking:

Bouw aangepaste NER- en tekstclassificatiemodellen op basis van opensource-frameworks.
Pak aangepaste sleutelwaarden uit documenten voor verschillende brancheverticalen, zoals verzekeringen en gezondheidszorg.
Tag en extraheer specifieke domeinafhankelijke entiteiten buiten de vooraf gedefinieerde NER-modellen voor domeinen zoals beveiliging of financiën.
Aangepaste tabellen maken op basis van documenten.
Handtekeningen extraheren.
E-mailberichten of andere documenten labelen en classificeren op basis van inhoud.

Overwegingen

Met deze overwegingen worden de pijlers van het Azure Well-Architected Framework geïmplementeerd. Dit is een set richtlijnen die kunnen worden gebruikt om de kwaliteit van een workload te verbeteren. Zie Microsoft Azure Well-Architected Framework voor meer informatie.

Voor deze voorbeeldworkload is het implementeren van elke pijler afhankelijk van het optimaal configureren en gebruiken van elke Azure-onderdeelservice.

Betrouwbaarheid

Betrouwbaarheid zorgt ervoor dat uw toepassing kan voldoen aan de toezeggingen die u aan uw klanten hebt gedaan. Zie Overzicht van de betrouwbaarheidspijler voor meer informatie.

Beschikbaarheid

Zie de serviceovereenkomsten (SLA's) voor elk architectuuronderdeel op Service Level Agreements (SLA) voor Online Services.
Zie Georedundantie gebruiken om maximaal beschikbare toepassingen te ontwerpen met Azure Storage-accounts voor configuratieopties.

Tolerantie

Omgaan met foutmodi van afzonderlijke services, zoals Azure Functions en Azure Storage, om tolerantie van de rekenservices en gegevensarchieven in dit scenario te garanderen. Zie de controlelijst voor tolerantie voor specifieke Azure-services voor meer informatie.
Maak voor Document Intelligence een back-up van uw Document Intelligence-modellen en herstel deze.
Voor aangepaste tekstclassificatie met Azure AI-taal maakt u een back-up van uw aangepaste modellen voor tekstclassificatie en herstelt u deze.
Voor aangepaste NER in Azure AI Language maakt u een back-up van uw aangepaste NER-modellen en herstelt u deze.
Azure Machine Learning is afhankelijk van samenstellende services zoals Blob Storage, rekenservices en Azure Kubernetes Service (AKS). Als u tolerantie wilt bieden voor Azure Machine Learning, configureert u elk van deze services om tolerant te zijn. Zie Failover voor bedrijfscontinuïteit en herstel na noodgevallen voor meer informatie.

Beveiliging

Beveiliging biedt garanties tegen opzettelijke aanvallen en misbruik van uw waardevolle gegevens en systemen. Zie Overzicht van de beveiligingspijler voor meer informatie.

Implementeer gegevensbeveiliging, identiteits- en toegangsbeheer en aanbevelingen voor netwerkbeveiliging voor Blob Storage, AI Services voor Document Intelligence en Language Studio en Azure Machine Learning.
Azure Functions heeft toegang tot resources in een virtueel netwerk via de integratie van een virtueel netwerk.

Kostenoptimalisatie

Kostenoptimalisatie gaat over manieren om onnodige uitgaven te verminderen en operationele efficiëntie te verbeteren. Zie Overzicht van de pijler kostenoptimalisatie voor meer informatie.

De totale kosten voor het implementeren van deze oplossing zijn afhankelijk van de prijzen van de services die u kiest.

De belangrijkste kosten voor deze oplossing zijn:

De rekenkosten voor machine learning-training en -implementatie van modellen.

Kies het juiste knooppunttype, de clustergrootte en het aantal knooppunten om de kosten te optimaliseren. Voor training biedt Machine Learning de opties voor het instellen van het minimum aantal rekenclusterknooppunten op nul en het instellen van de niet-actieve tijd voordat de schaal omlaag gaat. Zie Machine Learning-kosten beheren en optimaliseren voor meer informatie.
Duur en activiteiten van gegevensindeling. Voor Azure Data Factory zijn de kosten voor kopieeractiviteiten in de Azure Integration Runtime gebaseerd op het aantal gebruikte DTU's (Data Integration Units) en de uitvoeringsduur. Er worden ook uitvoeringen van indelingsactiviteiten in rekening gebracht op basis van hun nummer.

Logic Apps-prijsplannen zijn afhankelijk van de resources die u maakt en gebruikt. De volgende artikelen kunnen u helpen bij het kiezen van het juiste plan voor specifieke gebruiksvoorbeelden:

Zie de volgende bronnen voor meer informatie over prijzen voor specifieke onderdelen:

Gebruik de Azure-prijscalculator om de geselecteerde onderdeelopties toe te voegen en de totale kosten van de oplossing te schatten.

Prestatie-efficiëntie

Prestatie-efficiëntie is de mogelijkheid om op efficiënte wijze uw werkbelasting te schalen om te voldoen aan de vereisten die gebruikers eraan stellen. Zie overzicht van de pijler Prestatie-efficiëntie voor meer informatie.

Schaalbaarheid

Als u Azure Functions automatisch of handmatig wilt schalen, kiest u het juiste hostingabonnement.
Document Intelligence ondersteunt standaard 15 gelijktijdige aanvragen per seconde. Als u een verhoogd quotum wilt aanvragen, maakt u een ondersteuning voor Azure-ticket.
Voor aangepaste Azure Machine Learning-modellen die worden gehost als webservices in AKS, wordt de azureml-fe front-end automatisch geschaald als dat nodig is. Dit onderdeel stuurt ook binnenkomende deductieaanvragen naar geïmplementeerde services.
Voor implementaties als beheerde eindpunten biedt u ondersteuning voor automatisch schalen door integratie met de functie voor automatische schaalaanpassing van Azure Monitor.
De API-servicelimieten voor aangepaste NER - en aangepaste tekstclassificatie voor deductie zijn 20 GET- of POST-aanvragen per minuut.

Medewerkers

Dit artikel wordt onderhouden door Microsoft. Het is oorspronkelijk geschreven door de volgende inzender.

Hoofdauteur:

Jyotsna Ravi | Sr. Customer Engineer

Als u niet-openbare LinkedIn-profielen wilt zien, meldt u zich aan bij LinkedIn.

Delen via

Aangepaste modellen voor documentverwerking in Azure

Architectuur

Gegevensstroom

Onderdelen

Alternatieven

Scenariodetails

Potentiële gebruikscases

Overwegingen

Betrouwbaarheid

Beschikbaarheid

Tolerantie

Beveiliging

Kostenoptimalisatie

Prestatie-efficiëntie

Schaalbaarheid

Medewerkers

Volgende stappen

Feedback

Feedback

Aanvullende resources

Delen via

Aangepaste modellen voor documentverwerking in Azure

Architectuur

Gegevensstroom

Onderdelen

Alternatieven

Scenariodetails

Potentiële gebruikscases

Overwegingen

Betrouwbaarheid

Beschikbaarheid

Tolerantie

Beveiliging

Kostenoptimalisatie

Prestatie-efficiëntie

Schaalbaarheid

Medewerkers

Volgende stappen

Verwante resources

Feedback

Feedback

Aanvullende resources