Bewerken

Delen via


Aangepaste modellen voor documentverwerking in Azure

Azure AI-documentinformatie
Azure AI services
Azure Logic Apps
Azure Machine Learning Studio
Azure Storage

In dit artikel worden Azure-oplossingen beschreven voor het bouwen, trainen, implementeren en gebruiken van aangepaste documentverwerkingsmodellen. Deze Azure-services bieden ook gebruikersinterfacemogelijkheden voor labelen of taggen voor tekstverwerking.

Architectuur

Architectuurdiagram met verschillende alternatieven voor het bouwen en implementeren van een aangepast documentverwerkingsmodel.

Een Visio-bestand van deze architectuur downloaden.

Gegevensstroom

  1. Orchestrators zoals Azure Logic Apps, Azure Data Factory of Azure Functions nemen berichten en bijlagen op van e-mailservers en bestanden van FTP-servers of webtoepassingen.

    • Met Azure Functions en Logic Apps kunt u serverloze workloads inschakelen. De service die u kiest, is afhankelijk van uw voorkeur voor servicemogelijkheden, zoals ontwikkeling, connectors, beheer en uitvoeringscontext. Zie Azure Functions en Azure Logic Apps vergelijken voor meer informatie.

    • Overweeg om Azure Data Factory te gebruiken voor bulkgegevensverplaatsing.

  2. De orchestrators verzenden opgenomen gegevens naar Azure Blob Storage of Data Lake Storage, waarbij ze de gegevens in verschillende gegevensarchieven ordenen op basis van kenmerken zoals bestandsextensies of klanten.

  3. Document Intelligence Studio, Language Studio of Azure Machine Learning-studio tekstuele gegevens labelen en taggen en de aangepaste modellen bouwen. U kunt deze drie services onafhankelijk of in verschillende combinaties gebruiken om verschillende gebruiksvoorbeelden aan te pakken.

    • Als u voor het document sleutel-waardeparen moet extraheren of een aangepaste tabel moet maken op basis van een afbeeldingsindeling of PDF, gebruikt u Document Intelligence Studio om de gegevens te taggen en het aangepaste model te trainen. Als er ook een vereiste is om het type document te identificeren voordat u het juiste extractiemodel aanroept, gebruikt u Document Intelligent Studio om de documenten te labelen.

    • Voor documentclassificatie op basis van inhoud of voor domeinspecifieke entiteitextractie kunt u een aangepast tekstclassificatie- of NER-model (Named Entity Recognition) trainen in Language Studio.

    • Machine Learning Studio heeft mogelijkheden voor gegevenslabels voor tekstclassificatie of entiteitsextractie die u kunt gebruiken met opensource-frameworks zoals PyTorch of TensorFlow. Azure Machine Learning-studio biedt een modelcatalogus van basismodellen. Deze basismodellen hebben mogelijkheden voor het verfijnen van verschillende taken, zoals tekstclassificatie, vragen beantwoorden en samenvatten. Als u basismodellen wilt verfijnen, gebruikt u de gebruikersinterface of code van Machine Learning Studio.

  4. De aangepaste modellen implementeren en gebruiken voor deductie:

Onderdelen

  • Logic Apps maakt deel uit van Azure Integration Services. Logic Apps maakt geautomatiseerde werkstromen die apps, gegevens, services en systemen integreren. Met beheerde connectors voor services zoals Azure Storage en Microsoft 365 kunt u werkstromen activeren wanneer een bestand binnenkomt in het opslagaccount of e-mail.

  • Data Factory is een etl-service (managed cloud extract, transform, load) voor gegevensintegratie en -transformatie. Data Factory kan transformatieactiviteiten toevoegen aan een pijplijn die een REST-eindpunt aanroept of een notebook uitvoert op de opgenomen gegevens.

  • Azure Functions is een serverloze rekenservice die gebeurtenisgestuurde workloads kan hosten met kortdurende processen.

  • Blob Storage is de oplossing voor objectopslag voor onbewerkte bestanden in dit scenario. Blob Storage ondersteunt bibliotheken voor meerdere talen, zoals .NET, Node.js en Python. Toepassingen hebben toegang tot bestanden in Blob Storage via HTTP/HTTPS. Blob Storage heeft dynamische, statische en archieftoegangslagen ter ondersteuning van kostenoptimalisatie voor het opslaan van grote hoeveelheden gegevens.

  • Data Lake Storage is een set mogelijkheden die is gebouwd op Azure Blob Storage voor analyse van big data. Data Lake Storage behoudt de kosteneffectiviteit van Blob Storage en biedt functies zoals beveiliging op bestandsniveau en semantiek van bestandssysteem met hiërarchische naamruimte.

  • Document Intelligence maakt deel uit van Azure AI-services. Document Intelligence heeft ingebouwde mogelijkheden voor documentanalyse die u kunt gebruiken om gedrukte en handgeschreven tekst, tabellen en sleutel-waardeparen te extraheren. Document Intelligence heeft vooraf samengestelde modellen voor het extraheren van gegevens uit facturen, documenten, ontvangstbewijzen, id-kaarten en visitekaartjes. Document Intelligence heeft ook een aangepast sjabloonformuliermodel en een aangepast neuraal documentmodel dat u kunt gebruiken om aangepaste modellen te trainen en te implementeren.

  • Document Intelligence Studio biedt een gebruikersinterface die u kunt gebruiken om Document Intelligence-functies en -modellen te verkennen en aangepaste modellen te bouwen, taggen, trainen en implementeren.

  • Azure AI Language consolideert de verwerkingsservices van natuurlijke taal van Azure. De suite biedt vooraf samengestelde en aanpasbare opties. Zie de beschikbare functies van De Azure AI-taal voor meer informatie.

    Language Studio biedt een gebruikersinterface voor het verkennen en analyseren van Azure AI-taalfuncties. Language Studio biedt ook opties voor het bouwen, taggen, trainen en implementeren van aangepaste modellen.

  • Azure Machine Learning is een open platform voor het beheren van machine learning-modelontwikkeling en -implementatie op schaal.

    • Azure Machine Learning-studio biedt opties voor gegevenslabels voor afbeeldingen en tekst.
    • Exporteer gelabelde gegevens als COCO - of Azure Machine Learning-gegevenssets. U kunt de gegevenssets gebruiken voor het trainen en implementeren van modellen in Azure Machine Learning-notebooks.
    • Implementeer modellen in AKS als een webservice voor realtime deductie op schaal of als beheerde eindpunten voor zowel realtime als batchdeductie.

Alternatieven

U kunt meer werkstromen toevoegen aan dit scenario op basis van specifieke gebruiksvoorbeelden.

  • Als het document een afbeeldings- of PDF-indeling heeft, kunt u de gegevens extraheren met behulp van de Azure Computer Vision-, Document Intelligence-lees-API of opensource-bibliotheken.

  • U kunt document- en gesprekssamenvatting uitvoeren met behulp van het vooraf samengestelde model in Azure AI Language.

  • Gebruik voorverwerkingscode om stappen voor tekstverwerking uit te voeren. Deze stappen omvatten het opschonen, stoppen van woorden verwijderen, lemmatisatie, stemming en tekstsamenvatting op geëxtraheerde gegevens volgens de vereisten voor documentverwerking. U kunt de code beschikbaar maken als REST API's voor automatisering. Voer deze stappen handmatig uit of automatiseer ze door te integreren met het opnameproces van Logic Apps of Azure Functions .

  • U kunt Azure AI Studio gebruiken om basismodellen af te stemmen en te implementeren.

Scenariodetails

Documentverwerking is een breed gebied. Het kan lastig zijn om te voldoen aan al uw documentverwerkingsbehoeften met de vooraf gedefinieerde modellen die beschikbaar zijn in Document Intelligence en Azure AI Language. Mogelijk moet u aangepaste modellen bouwen om documentverwerking voor verschillende toepassingen en domeinen te automatiseren.

Belangrijke uitdagingen bij het aanpassen van modellen zijn onder andere:

  • Tekstgegevens labelen of taggen met relevante sleutel-waardepaarentiteiten om tekst te classificeren voor extractie.
  • Het veilig implementeren van modellen op schaal voor eenvoudige integratie met toepassingen die worden gebruikt.

Potentiële gebruikscases

De volgende gebruiksvoorbeelden kunnen profiteren van aangepaste modellen voor documentverwerking:

  • Bouw aangepaste NER- en tekstclassificatiemodellen op basis van opensource-frameworks.
  • Pak aangepaste sleutelwaarden uit documenten voor verschillende brancheverticalen, zoals verzekeringen en gezondheidszorg.
  • Tag en extraheer specifieke domeinafhankelijke entiteiten buiten de vooraf gedefinieerde NER-modellen voor domeinen zoals beveiliging of financiën.
  • Aangepaste tabellen maken op basis van documenten.
  • Handtekeningen extraheren.
  • E-mailberichten of andere documenten labelen en classificeren op basis van inhoud.

Overwegingen

Met deze overwegingen worden de pijlers van het Azure Well-Architected Framework geïmplementeerd. Dit is een set richtlijnen die kunnen worden gebruikt om de kwaliteit van een workload te verbeteren. Zie Microsoft Azure Well-Architected Framework voor meer informatie.

Voor deze voorbeeldworkload is het implementeren van elke pijler afhankelijk van het optimaal configureren en gebruiken van elke Azure-onderdeelservice.

Betrouwbaarheid

Betrouwbaarheid zorgt ervoor dat uw toepassing kan voldoen aan de toezeggingen die u aan uw klanten hebt gedaan. Zie Overzicht van de betrouwbaarheidspijler voor meer informatie.

Beschikbaarheid

Tolerantie

Beveiliging

Beveiliging biedt garanties tegen opzettelijke aanvallen en misbruik van uw waardevolle gegevens en systemen. Zie Overzicht van de beveiligingspijler voor meer informatie.

  • Implementeer gegevensbeveiliging, identiteits- en toegangsbeheer en aanbevelingen voor netwerkbeveiliging voor Blob Storage, AI Services voor Document Intelligence en Language Studio en Azure Machine Learning.

  • Azure Functions heeft toegang tot resources in een virtueel netwerk via de integratie van een virtueel netwerk.

Kostenoptimalisatie

Kostenoptimalisatie gaat over manieren om onnodige uitgaven te verminderen en operationele efficiëntie te verbeteren. Zie Overzicht van de pijler kostenoptimalisatie voor meer informatie.

De totale kosten voor het implementeren van deze oplossing zijn afhankelijk van de prijzen van de services die u kiest.

De belangrijkste kosten voor deze oplossing zijn:

Zie de volgende bronnen voor meer informatie over prijzen voor specifieke onderdelen:

Gebruik de Azure-prijscalculator om de geselecteerde onderdeelopties toe te voegen en de totale kosten van de oplossing te schatten.

Prestatie-efficiëntie

Prestatie-efficiëntie is de mogelijkheid om op efficiënte wijze uw werkbelasting te schalen om te voldoen aan de vereisten die gebruikers eraan stellen. Zie overzicht van de pijler Prestatie-efficiëntie voor meer informatie.

Schaalbaarheid

  • Als u Azure Functions automatisch of handmatig wilt schalen, kiest u het juiste hostingabonnement.

  • Document Intelligence ondersteunt standaard 15 gelijktijdige aanvragen per seconde. Als u een verhoogd quotum wilt aanvragen, maakt u een ondersteuning voor Azure-ticket.

  • Voor aangepaste Azure Machine Learning-modellen die worden gehost als webservices in AKS, wordt de azureml-fe front-end automatisch geschaald als dat nodig is. Dit onderdeel stuurt ook binnenkomende deductieaanvragen naar geïmplementeerde services.

  • Voor implementaties als beheerde eindpunten biedt u ondersteuning voor automatisch schalen door integratie met de functie voor automatische schaalaanpassing van Azure Monitor.

  • De API-servicelimieten voor aangepaste NER - en aangepaste tekstclassificatie voor deductie zijn 20 GET- of POST-aanvragen per minuut.

Medewerkers

Dit artikel wordt onderhouden door Microsoft. Het is oorspronkelijk geschreven door de volgende inzender.

Hoofdauteur:

Als u niet-openbare LinkedIn-profielen wilt zien, meldt u zich aan bij LinkedIn.

Volgende stappen