Oversikt over informasjonsuttrekking

Fullført

Note

Se fanen Tekst og bilder for mer informasjon!

Informasjonsuttrekking er en arbeidsbelastning som kombinerer flere AI-teknikker for å hente ut data fra innhold – ofte digitale dokumenter. En omfattende informasjonsutvinningsløsning involverer elementer av datamaskinsyn for å oppdage tekst i bildebaserte data; og maskinlæring, eller økende generativ AI, for semantisk å kartlegge den uttrukne teksten til spesifikke datafelt.

Diagram over informasjonsutvinningsprosessen.

  1. Tekstdeteksjon og uttrekking fra bilder ved bruk av optisk tegngjenkjenning (OCR).
  2. Verdiidentifikasjon og kartlegging fra OCR-resultatene til datafeltene.

For eksempel kan en AI-drevet løsning for utgiftskravbehandling automatisk hente ut relevante felt fra kvitteringer for å behandle krav mer effektivt.

Skannet kvittering Ekstraherte data
Diagram av en kvittering.
  • Leverandør: Fourth Coffee
  • Dato: 2024-08-15
  • Undertotal: 6,48 dollar
  • Skatt: $0,49
  • Totalt krav: 6,97 dollar

Velge riktig tilnærming

Når man planlegger en informasjonsutvinningsløsning, er det viktig å vurdere kravene og begrensningene som systemet må håndtere. Noen viktige hensyn inkluderer:

  • Dokumentets egenskaper. Dokumentene du trenger å hente data fra, er grunnlaget for hele løsningen. Vurder faktorer som:

    • Layoutkonsistens: Standardiserte skjemaer favoriserer malbaserte tilnærminger, mens behovet for å behandle flere formater og oppsett kan kreve en mer kompleks maskinlæringsbasert løsning.
    • Volumkrav: Høyvolumsprosessering drar nytte av automatiserte maskinlæringsmodeller som kjører på optimalisert systemmaskinvare.
    • Presisjonskrav: Kritiske applikasjoner kan trenge validering fra menneske i løkken.
  • Tekniske infrastrukturkrav og begrensninger. Løsningen din vil kreve maskinvare- og programvareinfrastruktur for å fungere. Vurder faktorer som:

    • Sikkerhet og personvern: Dokumentene du behandler kan inneholde sensitive eller konfidensielle data. Løsningen din må inkludere tilstrekkelige tiltak for å sikre tilgang til dataene og etterlevelse av eventuelle bransjekrav for lagring og behandling av beskyttede data.
    • Prosesseringskraft: Dyp læring og generative AI-modeller som ofte brukes i informasjonsekstraksjonsløsninger krever betydelige beregningsressurser.
    • Forsinkelseskrav: Sanntidsprosessering kan begrense modellens kompleksitet.
    • Skalerbarhetsbehov: Skybaserte løsninger tilbyr bedre skalerbarhet for variable arbeidsbelastninger.
    • Integrasjonskompleksitet: Vurder API-kompatibilitet og krav til dataformater.

Tips

I mange tilfeller kan informasjonsutvinningsløsninger bygges ved hjelp av programvaretjenester, som Azure Document Intelligence i Microsoft Foundry Tools og Azure Content Understanding i Microsoft Foundry Tools. Å bruke slike tjenester som grunnlaget for løsningen din kan redusere utviklingsarbeidet betydelig, samtidig som du gir svært skalerbare, bransjebeviste ytelses-, nøyaktighets- og integrasjonsmuligheter.