Oversikt over informasjonsuttrekking
Note
Se fanen Tekst og bilder for mer informasjon!
Informasjonsuttrekking er en arbeidsbelastning som kombinerer flere AI-teknikker for å hente ut data fra innhold – ofte digitale dokumenter. En omfattende informasjonsutvinningsløsning involverer elementer av datamaskinsyn for å oppdage tekst i bildebaserte data; og maskinlæring, eller økende generativ AI, for semantisk å kartlegge den uttrukne teksten til spesifikke datafelt.
- Tekstdeteksjon og uttrekking fra bilder ved bruk av optisk tegngjenkjenning (OCR).
- Verdiidentifikasjon og kartlegging fra OCR-resultatene til datafeltene.
For eksempel kan en AI-drevet løsning for utgiftskravbehandling automatisk hente ut relevante felt fra kvitteringer for å behandle krav mer effektivt.
| Skannet kvittering | Ekstraherte data |
|---|---|
|
|
Velge riktig tilnærming
Når man planlegger en informasjonsutvinningsløsning, er det viktig å vurdere kravene og begrensningene som systemet må håndtere. Noen viktige hensyn inkluderer:
Dokumentets egenskaper. Dokumentene du trenger å hente data fra, er grunnlaget for hele løsningen. Vurder faktorer som:
- Layoutkonsistens: Standardiserte skjemaer favoriserer malbaserte tilnærminger, mens behovet for å behandle flere formater og oppsett kan kreve en mer kompleks maskinlæringsbasert løsning.
- Volumkrav: Høyvolumsprosessering drar nytte av automatiserte maskinlæringsmodeller som kjører på optimalisert systemmaskinvare.
- Presisjonskrav: Kritiske applikasjoner kan trenge validering fra menneske i løkken.
Tekniske infrastrukturkrav og begrensninger. Løsningen din vil kreve maskinvare- og programvareinfrastruktur for å fungere. Vurder faktorer som:
- Sikkerhet og personvern: Dokumentene du behandler kan inneholde sensitive eller konfidensielle data. Løsningen din må inkludere tilstrekkelige tiltak for å sikre tilgang til dataene og etterlevelse av eventuelle bransjekrav for lagring og behandling av beskyttede data.
- Prosesseringskraft: Dyp læring og generative AI-modeller som ofte brukes i informasjonsekstraksjonsløsninger krever betydelige beregningsressurser.
- Forsinkelseskrav: Sanntidsprosessering kan begrense modellens kompleksitet.
- Skalerbarhetsbehov: Skybaserte løsninger tilbyr bedre skalerbarhet for variable arbeidsbelastninger.
- Integrasjonskompleksitet: Vurder API-kompatibilitet og krav til dataformater.
Tips
I mange tilfeller kan informasjonsutvinningsløsninger bygges ved hjelp av programvaretjenester, som Azure Document Intelligence i Microsoft Foundry Tools og Azure Content Understanding i Microsoft Foundry Tools. Å bruke slike tjenester som grunnlaget for løsningen din kan redusere utviklingsarbeidet betydelig, samtidig som du gir svært skalerbare, bransjebeviste ytelses-, nøyaktighets- og integrasjonsmuligheter.