Oversikt over informasjonsuttrekking

2 minutter

Note

Se fanen Tekst og bilder for mer informasjon!

Informasjonsuttrekking er en arbeidsbelastning som kombinerer flere AI-teknikker for å hente ut data fra innhold – ofte digitale dokumenter. En omfattende informasjonsutvinningsløsning involverer elementer av datamaskinsyn for å oppdage tekst i bildebaserte data; og maskinlæring, eller økende generativ AI, for semantisk å kartlegge den uttrukne teksten til spesifikke datafelt.

Diagram over informasjonsutvinningsprosessen.

Tekstdeteksjon og uttrekking fra bilder ved bruk av optisk tegngjenkjenning (OCR).
Verdiidentifikasjon og kartlegging fra OCR-resultatene til datafeltene.

For eksempel kan en AI-drevet løsning for utgiftskravbehandling automatisk hente ut relevante felt fra kvitteringer for å behandle krav mer effektivt.

Skannet kvittering	Ekstraherte data
	Leverandør: Fourth Coffee Dato: 2024-08-15 Undertotal: 6,48 dollar Skatt: $0,49 Totalt krav: 6,97 dollar

Velge riktig tilnærming

Når man planlegger en informasjonsutvinningsløsning, er det viktig å vurdere kravene og begrensningene som systemet må håndtere. Noen viktige hensyn inkluderer:

Dokumentets egenskaper. Dokumentene du trenger å hente data fra, er grunnlaget for hele løsningen. Vurder faktorer som:
- Layoutkonsistens: Standardiserte skjemaer favoriserer malbaserte tilnærminger, mens behovet for å behandle flere formater og oppsett kan kreve en mer kompleks maskinlæringsbasert løsning.
- Volumkrav: Høyvolumsprosessering drar nytte av automatiserte maskinlæringsmodeller som kjører på optimalisert systemmaskinvare.
- Presisjonskrav: Kritiske applikasjoner kan trenge validering fra menneske i løkken.
Tekniske infrastrukturkrav og begrensninger. Løsningen din vil kreve maskinvare- og programvareinfrastruktur for å fungere. Vurder faktorer som:
- Sikkerhet og personvern: Dokumentene du behandler kan inneholde sensitive eller konfidensielle data. Løsningen din må inkludere tilstrekkelige tiltak for å sikre tilgang til dataene og etterlevelse av eventuelle bransjekrav for lagring og behandling av beskyttede data.
- Prosesseringskraft: Dyp læring og generative AI-modeller som ofte brukes i informasjonsekstraksjonsløsninger krever betydelige beregningsressurser.
- Forsinkelseskrav: Sanntidsprosessering kan begrense modellens kompleksitet.
- Skalerbarhetsbehov: Skybaserte løsninger tilbyr bedre skalerbarhet for variable arbeidsbelastninger.
- Integrasjonskompleksitet: Vurder API-kompatibilitet og krav til dataformater.

Tips

I mange tilfeller kan informasjonsutvinningsløsninger bygges ved hjelp av programvaretjenester, som Azure Document Intelligence i Microsoft Foundry Tools og Azure Content Understanding i Microsoft Foundry Tools. Å bruke slike tjenester som grunnlaget for løsningen din kan redusere utviklingsarbeidet betydelig, samtidig som du gir svært skalerbare, bransjebeviste ytelses-, nøyaktighets- og integrasjonsmuligheter.

Tilbakemeldinger

Var denne siden nyttig?