Redigera

Dela via


Använda Azure AI-tjänster för att automatisera dokumentidentifiering, klassificering och sökning

Azure Functions
Azure App Service
Azure AI services
Azure AI Search
Azure AI-dokumentinformation

Den här artikeln beskriver en arkitektur som du kan använda för att bearbeta olika dokument. Arkitekturen använder funktionen durable functions i Azure Functions för att implementera pipelines. Pipelines bearbetar dokument via Azure AI Document Intelligence.

Arkitektur

Diagram som visar en arkitektur för att identifiera, klassificera och söka i dokument.

Ladda ned en Visio-fil med den här arkitekturen.

Arbetsflöde

  1. En användare laddar upp en dokumentfil till en webbapp. Filen innehåller flera inbäddade dokument av olika typer, till exempel PDF- eller TIFF-filer (Image File Format) för flera sidor. Dokumentfilen lagras i Azure Blob Storage (1a). För att initiera pipelinebearbetning lägger webbappen till ett kommandomeddelande i en lagringskö (1b).

  2. Kommandomeddelandet utlöser dirigering av varaktiga funktioner. Meddelandet innehåller metadata som identifierar bloblagringsplatsen för den dokumentfil som ska bearbetas. Varje durable functions-instans bearbetar endast en dokumentfil.

  3. Funktionen analysera aktivitet anropar API:et för dokumentinformationsanalys, som skickar lagringsplatsen för dokumentfilen som ska bearbetas. Analysfunktionen läser och identifierar varje dokument i dokumentfilen. Den här funktionen returnerar namn, typ, sidintervall och innehåll för varje inbäddat dokument till orkestreringen.

  4. Aktivitetsfunktionen för metadatalagring sparar information om dokumenttyp, plats och sidintervall för varje dokument i ett Azure Cosmos DB-arkiv.

  5. Indexeringsaktivitetsfunktionen skapar ett nytt sökdokument i Azure AI Search för varje dokument. I sökdokumentet använder den här funktionen AI Search-biblioteken för .NET för att inkludera ocr-resultaten (fullständig optisk teckenigenkänning) och dokumentinformation. Ett korrelations-ID läggs också till i sökdokumentet så att sökresultaten kan matchas med motsvarande dokumentmetadata från Azure Cosmos DB.

  6. Användare kan söka efter dokument med hjälp av innehåll och metadata. Om du vill söka efter dokumentposter som finns i Azure Cosmos DB kan de använda korrelations-ID:t i sökresultatuppsättningen. Posterna innehåller länkar till den ursprungliga dokumentfilen i Blob Storage.

Komponenter

  • Durable Functions är en funktion i Azure Functions som du kan använda för att skriva tillståndskänsliga funktioner i en serverlös beräkningsmiljö. I den här arkitekturen utlöser ett meddelande i en lagringskö en instans av varaktiga funktioner som initierar och samordnar pipelinen för dokumentbearbetning.

  • Azure Cosmos DB är en globalt distribuerad databas med flera modeller som du kan använda i dina lösningar för att skala dataflöde och lagringskapacitet i valfritt antal geografiska regioner. Omfattande serviceavtal (SLA) garanterar dataflöde, svarstid, tillgänglighet och konsekvens. Den här arkitekturen använder Azure Cosmos DB som metadataarkiv för dokumentklassificeringsinformationen.

  • Azure Storage är en uppsättning massivt skalbara och säkra molntjänster för data, appar och arbetsbelastningar. Den innehåller Blob Storage, Azure Files, Azure Table Storage och Azure Queue Storage. Den här arkitekturen använder Blob Storage för att lagra dokumentfilerna som användaren laddar upp och som pipelineprocesserna för varaktiga funktioner.

  • Azure App Service tillhandahåller ett ramverk för att skapa, distribuera och skala webbappar. Funktionen Web Apps i App Service är ett HTTP-baserat verktyg som du kan använda för att vara värd för webbprogram, REST-API:er och mobila serverdelar. Använd Web Apps för att utveckla i .NET, .NET Core, Java, Ruby, Node.js, PHP eller Python. Program kan enkelt köras och skalas i Windows- och Linux-baserade miljöer. I den här arkitekturen interagerar användarna med dokumentbearbetningssystemet via en App Service-värdbaserad webbapp.

  • AI Document Intelligence är en tjänst som du kan använda för att extrahera insikter från dokument, formulär och bilder. Den här arkitekturen använder AI Document Intelligence för att analysera dokumentfilerna och extrahera de inbäddade dokumenten tillsammans med innehåll och metadatainformation.

  • AI Search ger en omfattande sökupplevelse för privat, varierat innehåll i webb-, mobil- och företagsprogram. Den här arkitekturen använder AI Search för att indexering av extraherat dokumentinnehåll och metadatainformation så att användarna kan söka efter och hämta dokument.

Alternativ

  • För att underlätta global distribution lagrar den här lösningen metadata i Azure Cosmos DB. Azure SQL Database är ett annat beständigt lagringsalternativ för dokumentmetadata och information.

  • Om du vill utlösa instanser av varaktiga funktioner kan du använda andra meddelandeplattformar, inklusive Azure Service Bus.

Information om scenario

I den här arkitekturen identifierar pipelines dokumenten i en dokumentfil, klassificerar dem efter typ och lagrar information som ska användas vid efterföljande bearbetning.

Många företag behöver hantera och bearbeta dokument som de genomsöker massvis och som innehåller flera olika dokumenttyper, till exempel PDF-filer eller TIFF-bilder på flera sidor. Dessa dokument kan komma från utanför organisationen och det mottagande företaget styr inte formatet.

Med tanke på dessa begränsningar måste organisationer skapa egna dokumentparsningslösningar som kan innehålla anpassad teknik och manuella processer. Någon kan till exempel manuellt separera enskilda dokumenttyper och lägga till klassificeringskvalificerare för varje dokument.

Många av dessa anpassade lösningar baseras på arbetsflödesmönstret för tillståndsdatorn. Lösningarna använder databassystem för att bevara arbetsflödestillstånd och använda avsökningstjänster som söker efter de tillstånd som de behöver bearbeta. Att underhålla och förbättra dessa lösningar kan öka komplexiteten och arbetet.

Organisationer behöver tillförlitliga, skalbara och motståndskraftiga lösningar för att bearbeta och hantera dokumentidentifiering och klassificering för organisationens dokumenttyper. Den här lösningen kan bearbeta miljontals dokument varje dag med fullständig observerbarhet i bearbetningspipelinens framgång eller misslyckande.

Potentiella användningsfall

Du kan använda den här lösningen för att:

  • Rapportrubriker. Många myndigheter och kommuner hanterar pappersregister som inte har någon digital form. En effektiv automatiserad lösning kan generera en fil som innehåller alla dokument som du behöver för att uppfylla en dokumentbegäran.

  • Hantera underhållsposter. Du kan behöva skanna och skicka pappersposter, till exempel flygplan, lokomotiv och underhållsposter för maskiner, till externa organisationer.

  • Processtillstånd. Stad och län som tillåter avdelningar underhåller pappersdokument som de genererar för tillståndsinspektionsrapportering. Du kan ta en bild av flera inspektionsdokument och automatiskt identifiera, klassificera och söka i dessa poster.

Att tänka på

Dessa överväganden implementerar grundpelarna i Azure Well-Architected Framework, som är en uppsättning vägledande grundsatser som kan användas för att förbättra kvaliteten på en arbetsbelastning. Mer information finns i Microsoft Azure Well-Architected Framework.

Tillförlitlighet

Tillförlitlighet säkerställer att ditt program kan uppfylla de åtaganden du gör gentemot dina kunder. Mer information finns i Checklista för designgranskning för tillförlitlighet.

En tillförlitlig arbetsbelastning har både återhämtning och tillgänglighet. Återhämtning och elasticitet handlar om systemets förmåga att återhämta sig efter fel och fortsätta fungera. Målet med återhämtning är att kunna återställa programmet till ett fullt fungerande tillstånd efter fel. Tillgänglighet mäter om användarna kan komma åt din arbetsbelastning när de behöver det.

Information om tillförlitlighet om lösningskomponenter finns i SLA-information för Azure onlinetjänster.

Kostnadsoptimering

Kostnadsoptimering handlar om att titta på sätt att minska onödiga utgifter och förbättra drifteffektiviteten. Mer information finns i Checklista för designgranskning för kostnadsoptimering.

De viktigaste kostnaderna för den här arkitekturen är att lagra avbildningar i lagringskontot, bearbeta Azure AI-tjänstbilden och indexkapacitetskrav i AI Search.

Så här optimerar du kostnaderna:

Prestandaeffektivitet

Prestandaeffektivitet är arbetsbelastningens förmåga att skala för att uppfylla användarnas krav på ett effektivt sätt. Mer information finns i Checklista för designgranskning för prestandaeffektivitet.

Den här lösningen kan göra prestandaflaskhalsar tillgängliga när du bearbetar stora mängder data. Se till att du förstår och planerar skalningsalternativ för Azure Functions, automatisk skalning av Azure AI-tjänster och Azure Cosmos DB-partitionering för att säkerställa korrekt prestandaeffektivitet för din lösning.

Deltagare

Den här artikeln underhålls av Microsoft. Det har ursprungligen skrivits av följande medarbetare.

Huvudförfattare:

  • Kevin Kraus | Huvudnamn för Azure Technical Specialist

Om du vill se icke-offentliga LinkedIn-profiler loggar du in på LinkedIn.

Nästa steg

Introduktionsartiklar:

Produktdokumentation: