Bewerken

Delen via


Aangepaste modellen voor documentverwerking in Azure

Azure AI-documentinformatie
Azure AI services
Azure Logic Apps
Azure Machine Learning Studio
Azure Storage

In dit artikel worden Azure-oplossingen beschreven voor het bouwen, trainen, implementeren en gebruiken van aangepaste documentverwerkingsmodellen. Deze Azure-services bieden ook gebruikersinterfacemogelijkheden voor labelen of taggen voor tekstverwerking.

Architectuur

Architectuurdiagram met verschillende alternatieven voor het bouwen en implementeren van een aangepast documentverwerkingsmodel.

Een Visio-bestand van deze architectuur downloaden.

Gegevensstroom

  1. Orchestrators zoals Azure Logic Apps, Azure Data Factory of Azure Functions nemen berichten en bijlagen op van e-mailservers en bestanden van FTP-servers of webtoepassingen.

    • Met Azure Functions en Logic Apps kunt u serverloze workloads inschakelen. De service die u kiest, is afhankelijk van uw voorkeur voor servicemogelijkheden, zoals ontwikkeling, connectors, beheer en uitvoeringscontext. Zie Azure Functions en Azure Logic Apps vergelijken voor meer informatie.

    • Overweeg om Azure Data Factory te gebruiken voor bulkgegevensverplaatsing.

  2. De orchestrators verzenden opgenomen gegevens naar Azure Blob Storage of Data Lake Storage, waarbij ze de gegevens in verschillende gegevensarchieven ordenen op basis van kenmerken zoals bestandsextensies of klanten.

  3. Document Intelligence Studio, Language Studio of Azure Machine Learning-studio tekstuele gegevens labelen en taggen en de aangepaste modellen bouwen. U kunt deze drie services onafhankelijk of in verschillende combinaties gebruiken om verschillende gebruiksvoorbeelden aan te pakken.

    • Als voor het document sleutel-waardeparen moeten worden geëxtraheerd of een aangepaste tabel moet worden gemaakt op basis van een afbeeldingsindeling of PDF, gebruikt u Document Intelligence Studio om de gegevens te taggen en het aangepaste model te trainen. Als er een vereiste is om het type document te identificeren voordat u het juiste extractiemodel aanroept, gebruikt u Document Intelligent Studio om de documenten te labelen.

    • Voor documentclassificatie op basis van inhoud of voor domeinspecifieke entiteitextractie kunt u een aangepast tekstclassificatie- of NER-model (Named Entity Recognition) trainen in Language Studio.

    • Azure Machine Learning-studio kan ook labelen voor tekstclassificatie of entiteitsextractie met opensource-frameworks zoals PyTorch of TensorFlow.

  4. De aangepaste modellen implementeren en gebruiken voor deductie:

Onderdelen

  • Logic Apps maakt deel uit van Azure Integration Services. Logic Apps maakt geautomatiseerde werkstromen die apps, gegevens, services en systemen integreren. Met beheerde connectors voor services zoals Azure Storage en Microsoft 365 kunt u werkstromen activeren wanneer een bestand binnenkomt in het opslagaccount of e-mail.

  • Data Factory is een etl-service (managed cloud extract, transform, load) voor gegevensintegratie en -transformatie. Data Factory kan transformatieactiviteiten toevoegen aan een pijplijn die een REST-eindpunt aanroept of een notebook uitvoert op de opgenomen gegevens.

  • Azure Functions is een serverloze rekenservice die gebeurtenisgestuurde workloads kan hosten met kortdurende processen.

  • Blob Storage is de oplossing voor objectopslag voor onbewerkte bestanden in dit scenario. Blob Storage ondersteunt bibliotheken voor meerdere talen, zoals .NET, Node.js en Python. Toepassingen hebben toegang tot bestanden in Blob Storage via HTTP/HTTPS. Blob Storage heeft dynamische, statische en archieftoegangslagen ter ondersteuning van kostenoptimalisatie voor het opslaan van grote hoeveelheden gegevens.

  • Data Lake Storage is een set mogelijkheden die is gebouwd op Azure Blob Storage voor analyse van big data. Data Lake Storage behoudt de kosteneffectiviteit van Blob Storage en biedt functies zoals beveiliging op bestandsniveau en semantiek van bestandssysteem met hiërarchische naamruimte.

  • Azure AI Document Intelligence, onderdeel van Azure-app lied AI Services, beschikt over ingebouwde mogelijkheden voor documentanalyse om gedrukte en handgeschreven tekst, tabellen en sleutel-waardeparen te extraheren. Document Intelligence heeft vooraf samengestelde modellen voor het extraheren van gegevens uit facturen, documenten, ontvangstbewijzen, id-kaarten en visitekaartjes. Document Intelligence kan ook aangepaste modellen trainen en implementeren met behulp van een aangepast sjabloonformuliermodel of een aangepast neuraal documentmodel.

    Form Recognizer Studio biedt een gebruikersinterface voor het verkennen van Document Intelligence-functies en -modellen, en voor het bouwen, taggen, trainen en implementeren van aangepaste modellen.

  • Azure Cognitive Service for Language consolideert de services voor natuurlijke taalverwerking van Azure. De suite biedt vooraf samengestelde en aanpasbare opties. Zie de beschikbare functies van De Azure AI-taal voor meer informatie.

    Language Studio biedt een gebruikersinterface voor het verkennen en analyseren van Azure AI-taalfuncties. Language Studio biedt ook opties voor het bouwen, taggen, trainen en implementeren van aangepaste modellen.

  • Azure Machine Learning is een open platform voor het beheren van machine learning-modelontwikkeling en -implementatie op schaal.

    • Azure Machine Learning-studio biedt opties voor gegevenslabels voor afbeeldingen en tekst.
    • Exporteer gelabelde gegevens als COCO - of Azure Machine Learning-gegevenssets. U kunt de gegevenssets gebruiken voor het trainen en implementeren van modellen in Azure Machine Learning-notebooks.
    • Implementeer modellen in AKS als een webservice voor realtime deductie op schaal of als beheerde eindpunten voor zowel realtime als batchdeductie.

Alternatieven

U kunt meer werkstromen toevoegen aan dit scenario op basis van specifieke gebruiksvoorbeelden.

  • Als het document een afbeeldings- of PDF-indeling heeft, kunt u de gegevens extraheren met behulp van de Azure Computer Vision-, Form Recognizer-lees-API of opensourcebibliotheken.

  • U kunt document- en gesprekssamenvatting uitvoeren met behulp van het vooraf samengestelde model in Azure AI Language.

  • Gebruik voorverwerkingscode om tekstverwerkingsstappen uit te voeren, zoals opschonen, stoppen met het verwijderen van woorden, lemmatisatie, stemming en tekstsamenvatting voor geëxtraheerde gegevens, volgens de vereisten voor documentverwerking. U kunt de code beschikbaar maken als REST API's voor automatisering. Voer deze stappen handmatig uit of automatiseer ze door te integreren met het opnameproces van Logic Apps of Azure Functions .

Scenariodetails

Documentverwerking is een breed gebied. Het kan lastig zijn om te voldoen aan al uw documentverwerkingsbehoeften met de vooraf gedefinieerde modellen die beschikbaar zijn in Azure AI Document Intelligence en Azure AI Language. Mogelijk moet u aangepaste modellen bouwen om documentverwerking voor verschillende toepassingen en domeinen te automatiseren.

Belangrijke uitdagingen bij het aanpassen van modellen zijn onder andere:

  • Tekstgegevens labelen of taggen met relevante sleutel-waardepaarentiteiten om tekst te classificeren voor extractie.
  • Het veilig implementeren van modellen op schaal voor eenvoudige integratie met toepassingen die worden gebruikt.

Potentiële gebruikscases

De volgende gebruiksvoorbeelden kunnen profiteren van aangepaste modellen voor documentverwerking:

  • Bouw aangepaste NER- en tekstclassificatiemodellen op basis van opensource-frameworks.
  • Pak aangepaste sleutelwaarden uit documenten voor verschillende brancheverticalen, zoals verzekeringen en gezondheidszorg.
  • Tag en extraheer specifieke domeinafhankelijke entiteiten buiten de vooraf gedefinieerde NER-modellen voor domeinen zoals beveiliging of financiën.
  • Aangepaste tabellen maken op basis van documenten.
  • Handtekeningen extraheren.
  • E-mailberichten of andere documenten labelen en classificeren op basis van inhoud.

Overwegingen

Met deze overwegingen worden de pijlers van het Azure Well-Architected Framework geïmplementeerd. Dit is een set richtlijnen die kunnen worden gebruikt om de kwaliteit van een workload te verbeteren. Zie Microsoft Azure Well-Architected Framework voor meer informatie.

Voor deze voorbeeldworkload is het implementeren van elke pijler afhankelijk van het optimaal configureren en gebruiken van elke Azure-onderdeelservice.

Betrouwbaarheid

Betrouwbaarheid zorgt ervoor dat uw toepassing kan voldoen aan de toezeggingen die u aan uw klanten hebt gedaan. Zie Overzicht van de betrouwbaarheidspijler voor meer informatie.

Beschikbaarheid

Tolerantie

Beveiliging

Beveiliging biedt garanties tegen opzettelijke aanvallen en misbruik van uw waardevolle gegevens en systemen. Zie Overzicht van de beveiligingspijler voor meer informatie.

  • Implementeer gegevensbescherming, identiteits- en toegangsbeheer en aanbevelingen voor netwerkbeveiliging voor Blob Storage, Cognitive Services voor Document Intelligence en Language Studio en Azure Machine Learning.

  • Azure Functions heeft toegang tot resources in een virtueel netwerk via de integratie van een virtueel netwerk.

Kostenoptimalisatie

Kostenoptimalisatie gaat over manieren om onnodige uitgaven te verminderen en operationele efficiëntie te verbeteren. Zie Overzicht van de pijler kostenoptimalisatie voor meer informatie.

De totale kosten voor het implementeren van deze oplossing zijn afhankelijk van de prijzen van de services die u kiest.

De belangrijkste kosten voor deze oplossing zijn:

Zie de volgende bronnen voor meer informatie over prijzen voor specifieke onderdelen:

Gebruik de Azure-prijscalculator om de geselecteerde onderdeelopties toe te voegen en de totale kosten van de oplossing te schatten.

Prestatie-efficiëntie

Prestatie-efficiëntie is de mogelijkheid om op efficiënte wijze uw werkbelasting te schalen om te voldoen aan de vereisten die gebruikers eraan stellen. Zie overzicht van de pijler Prestatie-efficiëntie voor meer informatie.

Schaalbaarheid

  • Als u Azure Functions automatisch of handmatig wilt schalen, kiest u het juiste hostingabonnement.

  • Document Intelligence ondersteunt standaard 15 gelijktijdige aanvragen per seconde. Als u een verhoogd quotum wilt aanvragen, maakt u een ondersteuning voor Azure-ticket.

  • Voor aangepaste Azure Machine Learning-modellen die worden gehost als webservices in AKS, wordt de azureml-fe front-end automatisch geschaald als dat nodig is. Dit onderdeel stuurt ook binnenkomende deductieaanvragen naar geïmplementeerde services.

  • Voor implementaties als beheerde eindpunten biedt u ondersteuning voor automatisch schalen door integratie met de functie voor automatische schaalaanpassing van Azure Monitor.

  • De API-servicelimieten voor aangepaste NER - en aangepaste tekstclassificatie voor deductie zijn 20 GET- of POST-aanvragen per minuut.

Medewerkers

Dit artikel wordt onderhouden door Microsoft. Het is oorspronkelijk geschreven door de volgende inzender.

Hoofdauteur:

Als u niet-openbare LinkedIn-profielen wilt zien, meldt u zich aan bij LinkedIn.

Volgende stappen