In dit artikel worden Azure-oplossingen beschreven voor het bouwen, trainen, implementeren en gebruiken van aangepaste documentverwerkingsmodellen. Deze Azure-services bieden ook gebruikersinterfacemogelijkheden voor labelen of taggen voor tekstverwerking.
Architectuur
Een Visio-bestand van deze architectuur downloaden.
Gegevensstroom
Orchestrators zoals Azure Logic Apps, Azure Data Factory of Azure Functions nemen berichten en bijlagen op van e-mailservers en bestanden van FTP-servers of webtoepassingen.
Met Azure Functions en Logic Apps kunt u serverloze workloads inschakelen. De service die u kiest, is afhankelijk van uw voorkeur voor servicemogelijkheden, zoals ontwikkeling, connectors, beheer en uitvoeringscontext. Zie Azure Functions en Azure Logic Apps vergelijken voor meer informatie.
Overweeg om Azure Data Factory te gebruiken voor bulkgegevensverplaatsing.
De orchestrators verzenden opgenomen gegevens naar Azure Blob Storage of Data Lake Storage, waarbij ze de gegevens in verschillende gegevensarchieven ordenen op basis van kenmerken zoals bestandsextensies of klanten.
Document Intelligence Studio, Language Studio of Azure Machine Learning-studio tekstuele gegevens labelen en taggen en de aangepaste modellen bouwen. U kunt deze drie services onafhankelijk of in verschillende combinaties gebruiken om verschillende gebruiksvoorbeelden aan te pakken.
Als voor het document sleutel-waardeparen moeten worden geëxtraheerd of een aangepaste tabel moet worden gemaakt op basis van een afbeeldingsindeling of PDF, gebruikt u Document Intelligence Studio om de gegevens te taggen en het aangepaste model te trainen. Als er een vereiste is om het type document te identificeren voordat u het juiste extractiemodel aanroept, gebruikt u Document Intelligent Studio om de documenten te labelen.
Voor documentclassificatie op basis van inhoud of voor domeinspecifieke entiteitextractie kunt u een aangepast tekstclassificatie- of NER-model (Named Entity Recognition) trainen in Language Studio.
Azure Machine Learning-studio kan ook labelen voor tekstclassificatie of entiteitsextractie met opensource-frameworks zoals PyTorch of TensorFlow.
De aangepaste modellen implementeren en gebruiken voor deductie:
Azure AI Document Intelligence Service heeft ingebouwde modelimplementatie. Gebruik Form Recognizer SDK's of de REST API om aangepaste modellen toe te passen voor deductie. Neem de model-id of de naam van het aangepaste model op in de URL van de Document Intelligence-aanvraag, afhankelijk van de API-versie. Document Intelligence vereist geen verdere implementatiestappen.
Language Studio biedt een optie voor het implementeren van aangepaste taalmodellen. Haal de VOORSPELLINGs-URL van het REST-eindpunt op door het model te selecteren dat u wilt implementeren. U kunt modeldeductie uitvoeren met behulp van het REST-eindpunt of de Azure SDK-clientbibliotheken.
Azure Machine Learning kan aangepaste modellen implementeren op online of batchgewijs beheerde Azure Machine Learning-eindpunten. U kunt ook implementeren in Azure Kubernetes Service (AKS) als een webservice met behulp van de Azure Machine Learning SDK.
Onderdelen
Logic Apps maakt deel uit van Azure Integration Services. Logic Apps maakt geautomatiseerde werkstromen die apps, gegevens, services en systemen integreren. Met beheerde connectors voor services zoals Azure Storage en Microsoft 365 kunt u werkstromen activeren wanneer een bestand binnenkomt in het opslagaccount of e-mail.
Data Factory is een etl-service (managed cloud extract, transform, load) voor gegevensintegratie en -transformatie. Data Factory kan transformatieactiviteiten toevoegen aan een pijplijn die een REST-eindpunt aanroept of een notebook uitvoert op de opgenomen gegevens.
Azure Functions is een serverloze rekenservice die gebeurtenisgestuurde workloads kan hosten met kortdurende processen.
Blob Storage is de oplossing voor objectopslag voor onbewerkte bestanden in dit scenario. Blob Storage ondersteunt bibliotheken voor meerdere talen, zoals .NET, Node.js en Python. Toepassingen hebben toegang tot bestanden in Blob Storage via HTTP/HTTPS. Blob Storage heeft dynamische, statische en archieftoegangslagen ter ondersteuning van kostenoptimalisatie voor het opslaan van grote hoeveelheden gegevens.
Data Lake Storage is een set mogelijkheden die is gebouwd op Azure Blob Storage voor analyse van big data. Data Lake Storage behoudt de kosteneffectiviteit van Blob Storage en biedt functies zoals beveiliging op bestandsniveau en semantiek van bestandssysteem met hiërarchische naamruimte.
Azure AI Document Intelligence, onderdeel van Azure-app lied AI Services, beschikt over ingebouwde mogelijkheden voor documentanalyse om gedrukte en handgeschreven tekst, tabellen en sleutel-waardeparen te extraheren. Document Intelligence heeft vooraf samengestelde modellen voor het extraheren van gegevens uit facturen, documenten, ontvangstbewijzen, id-kaarten en visitekaartjes. Document Intelligence kan ook aangepaste modellen trainen en implementeren met behulp van een aangepast sjabloonformuliermodel of een aangepast neuraal documentmodel.
Form Recognizer Studio biedt een gebruikersinterface voor het verkennen van Document Intelligence-functies en -modellen, en voor het bouwen, taggen, trainen en implementeren van aangepaste modellen.
Azure Cognitive Service for Language consolideert de services voor natuurlijke taalverwerking van Azure. De suite biedt vooraf samengestelde en aanpasbare opties. Zie de beschikbare functies van De Azure AI-taal voor meer informatie.
Language Studio biedt een gebruikersinterface voor het verkennen en analyseren van Azure AI-taalfuncties. Language Studio biedt ook opties voor het bouwen, taggen, trainen en implementeren van aangepaste modellen.
Azure Machine Learning is een open platform voor het beheren van machine learning-modelontwikkeling en -implementatie op schaal.
- Azure Machine Learning-studio biedt opties voor gegevenslabels voor afbeeldingen en tekst.
- Exporteer gelabelde gegevens als COCO - of Azure Machine Learning-gegevenssets. U kunt de gegevenssets gebruiken voor het trainen en implementeren van modellen in Azure Machine Learning-notebooks.
- Implementeer modellen in AKS als een webservice voor realtime deductie op schaal of als beheerde eindpunten voor zowel realtime als batchdeductie.
Alternatieven
U kunt meer werkstromen toevoegen aan dit scenario op basis van specifieke gebruiksvoorbeelden.
Als het document een afbeeldings- of PDF-indeling heeft, kunt u de gegevens extraheren met behulp van de Azure Computer Vision-, Form Recognizer-lees-API of opensourcebibliotheken.
U kunt document- en gesprekssamenvatting uitvoeren met behulp van het vooraf samengestelde model in Azure AI Language.
Gebruik voorverwerkingscode om tekstverwerkingsstappen uit te voeren, zoals opschonen, stoppen met het verwijderen van woorden, lemmatisatie, stemming en tekstsamenvatting voor geëxtraheerde gegevens, volgens de vereisten voor documentverwerking. U kunt de code beschikbaar maken als REST API's voor automatisering. Voer deze stappen handmatig uit of automatiseer ze door te integreren met het opnameproces van Logic Apps of Azure Functions .
Scenariodetails
Documentverwerking is een breed gebied. Het kan lastig zijn om te voldoen aan al uw documentverwerkingsbehoeften met de vooraf gedefinieerde modellen die beschikbaar zijn in Azure AI Document Intelligence en Azure AI Language. Mogelijk moet u aangepaste modellen bouwen om documentverwerking voor verschillende toepassingen en domeinen te automatiseren.
Belangrijke uitdagingen bij het aanpassen van modellen zijn onder andere:
- Tekstgegevens labelen of taggen met relevante sleutel-waardepaarentiteiten om tekst te classificeren voor extractie.
- Het veilig implementeren van modellen op schaal voor eenvoudige integratie met toepassingen die worden gebruikt.
Potentiële gebruikscases
De volgende gebruiksvoorbeelden kunnen profiteren van aangepaste modellen voor documentverwerking:
- Bouw aangepaste NER- en tekstclassificatiemodellen op basis van opensource-frameworks.
- Pak aangepaste sleutelwaarden uit documenten voor verschillende brancheverticalen, zoals verzekeringen en gezondheidszorg.
- Tag en extraheer specifieke domeinafhankelijke entiteiten buiten de vooraf gedefinieerde NER-modellen voor domeinen zoals beveiliging of financiën.
- Aangepaste tabellen maken op basis van documenten.
- Handtekeningen extraheren.
- E-mailberichten of andere documenten labelen en classificeren op basis van inhoud.
Overwegingen
Met deze overwegingen worden de pijlers van het Azure Well-Architected Framework geïmplementeerd. Dit is een set richtlijnen die kunnen worden gebruikt om de kwaliteit van een workload te verbeteren. Zie Microsoft Azure Well-Architected Framework voor meer informatie.
Voor deze voorbeeldworkload is het implementeren van elke pijler afhankelijk van het optimaal configureren en gebruiken van elke Azure-onderdeelservice.
Betrouwbaarheid
Betrouwbaarheid zorgt ervoor dat uw toepassing kan voldoen aan de toezeggingen die u aan uw klanten hebt gedaan. Zie Overzicht van de betrouwbaarheidspijler voor meer informatie.
Beschikbaarheid
Zie de SLA's (Service Level Agreements) voor beschikbaarheid voor elke Azure-onderdeelservice:
- Azure AI Document Intelligence - SLA voor Azure-app lied AI Services.
- Azure AI Language - SLA voor Azure Cognitive Services.
- Azure Functions - SLA voor Azure Functions.
- Azure Kubernetes Service (AKS) - SLA voor Azure Kubernetes Service (AKS).
- Azure Storage - SLA voor opslagaccounts.
Zie Georedundantie gebruiken om maximaal beschikbare toepassingen te ontwerpen met Azure Storage-accounts voor configuratieopties.
Tolerantie
Omgaan met foutmodi van afzonderlijke services, zoals Azure Functions en Azure Storage, om tolerantie van de rekenservices en gegevensarchieven in dit scenario te garanderen. Zie de controlelijst voor tolerantie voor specifieke Azure-services voor meer informatie.
Maak voor Document Intelligence een back-up van uw Form Recognizer-modellen en herstel deze.
Voor aangepaste tekstclassificatie met Azure AI-taal maakt u een back-up van uw aangepaste modellen voor tekstclassificatie en herstelt u deze.
Voor aangepaste NER in Azure AI Language maakt u een back-up van uw aangepaste NER-modellen en herstelt u deze.
Azure Machine Learning is afhankelijk van samenstellende services zoals Blob Storage, rekenservices en Azure Kubernetes Service (AKS). Als u tolerantie wilt bieden voor Azure Machine Learning, configureert u elk van deze services om tolerant te zijn. Zie Failover voor bedrijfscontinuïteit en herstel na noodgevallen voor meer informatie.
Beveiliging
Beveiliging biedt garanties tegen opzettelijke aanvallen en misbruik van uw waardevolle gegevens en systemen. Zie Overzicht van de beveiligingspijler voor meer informatie.
Implementeer gegevensbescherming, identiteits- en toegangsbeheer en aanbevelingen voor netwerkbeveiliging voor Blob Storage, Cognitive Services voor Document Intelligence en Language Studio en Azure Machine Learning.
Azure Functions heeft toegang tot resources in een virtueel netwerk via de integratie van een virtueel netwerk.
Kostenoptimalisatie
Kostenoptimalisatie gaat over manieren om onnodige uitgaven te verminderen en operationele efficiëntie te verbeteren. Zie Overzicht van de pijler kostenoptimalisatie voor meer informatie.
De totale kosten voor het implementeren van deze oplossing zijn afhankelijk van de prijzen van de services die u kiest.
De belangrijkste kosten voor deze oplossing zijn:
De rekenkosten die zijn betrokken bij azure Machine Learning-training. Kies het juiste knooppunttype, de clustergrootte en het aantal knooppunten om de kosten te optimaliseren. Azure Machine Learning biedt opties voor het instellen van de minimale knooppunten op nul en het instellen van de niet-actieve tijd voordat de schaal omlaag gaat. Zie Azure Machine Learning-kosten beheren en optimaliseren voor meer informatie.
Duur en activiteiten van gegevensindeling. Voor Azure Data Factory zijn de kosten voor kopieeractiviteiten in de Azure Integration Runtime gebaseerd op het aantal gebruikte Data-Integratie eenheden (DIU's) en de uitvoeringsduur. Er worden ook uitvoeringen van indelingsactiviteiten in rekening gebracht op basis van hun nummer.
Logic Apps-prijsplannen zijn afhankelijk van de resources die u maakt en gebruikt. De volgende artikelen kunnen u helpen bij het kiezen van het juiste plan voor specifieke gebruiksvoorbeelden:
Zie de volgende bronnen voor meer informatie over prijzen voor specifieke onderdelen:
- Prijzen voor Azure Form Recognizer
- Azure Functions-prijzen
- Prijzen van Logic Apps
- Azure Data Factory-prijzen
- Prijzen voor Azure Blob Storage
- Prijzen van de taalservice
- Prijzen voor Azure Machine Learning
Gebruik de Azure-prijscalculator om de geselecteerde onderdeelopties toe te voegen en de totale kosten van de oplossing te schatten.
Prestatie-efficiëntie
Prestatie-efficiëntie is de mogelijkheid om op efficiënte wijze uw werkbelasting te schalen om te voldoen aan de vereisten die gebruikers eraan stellen. Zie overzicht van de pijler Prestatie-efficiëntie voor meer informatie.
Schaalbaarheid
Als u Azure Functions automatisch of handmatig wilt schalen, kiest u het juiste hostingabonnement.
Document Intelligence ondersteunt standaard 15 gelijktijdige aanvragen per seconde. Als u een verhoogd quotum wilt aanvragen, maakt u een ondersteuning voor Azure-ticket.
Voor aangepaste Azure Machine Learning-modellen die worden gehost als webservices in AKS, wordt de
azureml-fe
front-end automatisch geschaald als dat nodig is. Dit onderdeel stuurt ook binnenkomende deductieaanvragen naar geïmplementeerde services.Voor implementaties als beheerde eindpunten biedt u ondersteuning voor automatisch schalen door integratie met de functie voor automatische schaalaanpassing van Azure Monitor.
De API-servicelimieten voor aangepaste NER - en aangepaste tekstclassificatie voor deductie zijn 20 GET- of POST-aanvragen per minuut.
Medewerkers
Dit artikel wordt onderhouden door Microsoft. Het is oorspronkelijk geschreven door de volgende inzender.
Hoofdauteur:
- Jyotsna Ravi | Sr. Customer Engineer
Als u niet-openbare LinkedIn-profielen wilt zien, meldt u zich aan bij LinkedIn.
Volgende stappen
- Aan de slag: Form Recognizer Studio
- Form Recognizer SDK's of REST API gebruiken
- Quickstart: Aan de slag met Language Studio
- Wat is optische tekenherkenning (OCR)?
- Azure Functions configureren met een virtueel netwerk