Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Viktigt!
Översättningar som inte är engelska tillhandahålls endast för enkelhetens skull. Se versionen EN-US
av det här dokumentet för bindningsversionen.
Den här artikeln innehåller information om användningsfall för optisk teckenigenkänning (OCR).
Vad är en transparensanteckning?
Ett AI-system omfattar inte bara tekniken, utan även de personer som ska använda den, de personer som påverkas av den och miljön där den distribueras. Att skapa ett system som är lämpligt för sitt avsedda syfte kräver en förståelse för hur tekniken fungerar, dess funktioner och begränsningar och hur du uppnår bästa prestanda.
Microsoft tillhandahåller transparensanteckningar som hjälper dig att förstå hur vår AI-teknik fungerar. Detta inkluderar de val systemägare kan göra som påverkar systemets prestanda och beteende, och vikten av att tänka på hela systemet, inklusive tekniken, människorna och miljön. Du kan använda transparensanteckningar när du utvecklar eller distribuerar ditt eget system, eller dela dem med de personer som kommer att använda eller påverkas av ditt system.
Transparensanteckningar är en del av ett bredare arbete hos Microsoft för att omsätta våra AI-principer i praktiken. Mer information finns i Microsofts AI-principer.
Introduktion till optisk teckenigenkänning (OCR)
Företag behöver idag ofta konvertera text från bilder, skannade pappersdokument och digitala filer till användbara insikter. Dessa insikter ger kunskapsutvinning, automatisering av affärsprocesser och tillgänglighet för innehåll för alla. Optisk teckenigenkänning (OCR) är en AI-tjänst som används för att extrahera text från visuellt innehåll, till exempel bilder och dokument. OCR stöder för närvarande flera språk för extrahering av utskriftstext (se OCR-språk som stöds). Handskriven OCR stöds för närvarande uteslutande för engelska.
Grunderna i OCR
OCR-tekniken från Microsoft erbjuds via Läs-API:et för Azure AI Vision. Kunder anropar Läs-API:et med sitt innehåll för att hämta den extraherade texten, dess plats och andra insikter i maskinläsbara textutdata. De bearbetar utdata i sina affärsprogram för att implementera innehållsinformation, automatisering av affärsprocesser och andra scenarier för sina användare.
Begrepp | Definition |
---|---|
Asynkron | Asynkron innebär att tjänsten inte omedelbart returnerar den extraherade texten. I stället startar processen i bakgrunden. Kundapplikationen måste komma tillbaka vid ett senare tillfälle för att hämta den extraherade texten. |
Läs | Åtgärden Read är ett asynkront anrop som accepterar bilder och dokument för att påbörja analys och textextrahering, som returneras via ett annat anrop. |
Hämta läsresultat | Även om analys- och extraheringsprocessen är aktiv returnerar åtgärden Hämta läsresultat statusen för förloppet. När processen är klar matar åtgärden Hämta läsresultat ut den extraherade texten (i form av textrader och ord) och konfidensvärden. |
Konfidensvärde | Åtgärden Hämta läsresultat returnerar konfidensvärden i intervallet mellan 0 och 1 för alla extraherade ord. Det här värdet representerar tjänstens uppskattning av hur många gånger den korrekt extraherar ordet av 100. Ett ord som beräknas extraheras korrekt 82% av tiden resulterar till exempel i ett konfidensvärde på 0,82. |
Exempel på användningsfall
Följande användningsfall är populära exempel för OCR-tekniken.
- Sökning och arkiv för bilder och dokument: Ostrukturerade dokument som juridiska kontrakt, tekniska dokument och nyhetsinnehåll innehåller omfattande information och metadata som inte är tillgängliga för processer som automatiserad taggning, kategorisering och sökning. MED OCR kan texten från dessa dokument vara maskinläsbar för analys, sökning och hämtning.
- Bildinnehållsmoderering och lokalisering: e-handelsföretag, användargenererade innehållsutgivare och onlinespel och sociala mediegrupper måste moderera bilder för att vara kompatibla med onlinesäkerhetsregler. I vissa fall måste de också lokalisera innehåll för internationell publik. MED OCR kan du extrahera text från bilder för att tillämpa nedströmsbearbetning.
- Automatisering av affärsprocesser: Affärsprocessautomation kräver integrering av användarangivna data och inställningar i dokument och programskärmar med komplexa affärsprocesser. OCR låser upp texten som är inbäddad i dokument och bilder och gör den tillgänglig för användning i stegen i affärsarbetsflödena.
- Bearbetning av finansiella dokument och sjukvårdsdokument: När de används vid bearbetning av formulär för ekonomi- och försäkringsprogram hjälper OCR till att spara tid och arbete med dokumentbearbetning. På samma sätt påskyndas ersättning av försäkringskrav och medicinsk information när OCR används, vilket snabbar upp kvalificering för tjänster och förmåner.
Att tänka på när du väljer andra användningsfall
Tänk på följande faktorer när du väljer ett användningsfall.
Tänk noga på när du använder för att tilldela eller neka förmåner: Användning av OCR-utdata direkt för att tilldela eller neka förmåner kan leda till fel om det baseras på felaktig eller ofullständig information. När du till exempel fyller i medicinska formulär kan användarna göra fel eller misslyckas med att inkludera viktig information. Dessutom kan OCR potentiellt misstolka eller inte identifiera delar av formuläret. För att säkerställa rättvisa och högkvalitativa beslut för konsumenterna kombinerar du OCR-baserad automatisering med mänsklig tillsyn.
Undvik att använda för signaturidentifiering: När du extraherar handskriven text bör du undvika att använda OCR-resultaten på signaturer för att identifiera enskilda personer. Signaturer är svåra att läsa för både människor och datorer. Ett bättre sätt att använda OCR är att använda det för att identifiera förekomsten av en signatur för ytterligare analys.
Använd inte OCR för beslut som kan ha allvarliga negativa effekter: Exempel på sådana användningsfall inkluderar bearbetning av medicinska recept och dispensering av medicinering. Maskininlärningsmodeller som extraherar text från recept kan resultera i oupptäckta eller felaktiga textutdata. Beslut som baseras på felaktiga utdata kan få allvarliga negativa effekter. Dessutom är det lämpligt att inkludera mänsklig granskning av beslut som kan få allvarliga konsekvenser för enskilda individer.
-
Juridiska och regelmässiga överväganden: Organisationer måste utvärdera potentiella specifika juridiska och regelmässiga skyldigheter när de använder AI-tjänster och lösningar, vilket kanske inte är lämpligt för användning i alla branscher eller scenarion. Dessutom är AI-tjänster eller lösningar inte utformade för och får inte användas på sätt som är förbjudna i tillämpliga användningsvillkor och relevanta uppförandekoder.