Översikt över extrahering av information
Anmärkning
Mer information finns på fliken Text och bilder !
Informationsextrahering är en arbetsbelastning som kombinerar flera AI-tekniker för att extrahera data från innehåll – ofta digitala dokument. En omfattande lösning för informationsextrahering omfattar delar av visuellt innehåll för att identifiera text i bildbaserade data. och maskininlärning, eller alltmer generativ AI, för att semantiskt mappa den extraherade texten till specifika datafält.
- Textidentifiering och extrahering från bilder med optisk teckenigenkänning (OCR).
- Värdeidentifiering och mappning från OCR-resultaten till datafält.
Till exempel kan en AI-baserad lösning för bearbetning av utgiftsanspråk automatiskt extrahera relevanta fält från kvitton för att bearbeta anspråk mer effektivt.
| Skannat kvitto | Extraherade data |
|---|---|
|
|
Välja rätt metod
När du planerar en lösning för informationsextrahering är det viktigt att tänka på de krav och begränsningar som systemet måste hantera. Några viktiga överväganden är:
Dokumentegenskaper. De dokument som du behöver extrahera data från utgör grunden för hela lösningen. Tänk på faktorer som:
- Layoutkonsekvens: Standardiserade formulär gynnar mallbaserade metoder, medan ett behov av att bearbeta flera format och layouter kan kräva en mer komplex maskininlärningsbaserad lösning.
- Volymkrav: Bearbetning med stora volymer drar nytta av automatiserade maskininlärningsmodeller som körs på optimerad systemmaskinvara.
- Noggrannhetskrav: Kritiska program kan behöva validering av människa i loopen.
Krav och begränsningar för teknisk infrastruktur. Din lösning kräver både maskin- och programvaruinfrastruktur för att köras. Tänk på faktorer som:
- Säkerhet och sekretess: Dokumenten som du bearbetar kan innehålla känsliga eller konfidentiella data. Din lösning måste innehålla lämpliga åtgärder för att skydda åtkomsten till data och uppfylla alla branschkrav för lagring och bearbetning av skyddade data.
- Bearbetningskraft: Djupinlärning och generativa AI-modeller som ofta används i informationsextraheringslösningar kräver betydande beräkningsresurser.
- Svarstidskrav: Bearbetning i realtid kan begränsa modellens komplexitet.
- Skalbarhetsbehov: Molnbaserade lösningar ger bättre skalbarhet för varierande arbetsbelastningar.
- Integreringskomplexitet: Överväg krav på API-kompatibilitet och dataformat.
Tips/Råd
I många fall kan informationsextraheringslösningar skapas med hjälp av programvarutjänster, till exempel Azure Document Intelligence i Microsoft Foundry Tools och Azure Content Understanding i Microsoft Foundry Tools. Om du använder tjänster som dessa som grund för din lösning kan du avsevärt minska det utvecklingsarbete som krävs samtidigt som du tillhandahåller mycket skalbara, branschbeprövade prestanda, noggrannhet och integreringsfunktioner.