OCR akcije
Power Automate omogućuje korisnicima čitanje, izdvajanje i upravljanje podacima unutar datoteka putem optičkog prepoznavanja znakova (OCR).
Da biste stvorili OCR mehanizam i izdvojili tekst iz slika i dokumenata, upotrijebite akciju Izdvoji tekst pomoću OCR-a . Sljedeći primjer izdvaja tekst iz cijele navedene slike.
Sve OCR akcije mogu stvoriti novu varijablu OCR motora ili koristiti postojeću. Postojeće varijable OCR motora možete koristiti u bilo kojoj radnji koja nudi OCR mogućnosti.
Power Automate podržava motore Windows OCR i Tesseract. Da biste konfigurirali odabrani OCR motor, idite na postavke OCR motora odgovarajuće akcije. Dostupne opcije uključuju jezik i množitelje širine i visine slike.
Napomena
- Svi dostupni OCR motori unaprijed su instalirani i Power Automate rade lokalno bez povezivanja s oblakom. Međutim, možda ćete morati preuzeti jezične pakete ili podatkovne datoteke da biste izdvojili tekstove na određenim jezicima.
- Multiplikatori slika povećavaju veličinu slike kako bi pretraživanje i izdvajanje teksta bili učinkovitiji. Postavljanje vrijednosti većih od tri može dovesti do pogrešnih rezultata.
Korištenje OCR modula sustava Windows
Zadani OCR mehanizam u Power Automate je Windows OCR modul. Da biste izdvojili tekstove pomoću OCR modula sustava Windows, morate instalirati odgovarajući jezični paket za jezik koji želite izdvojiti.
Ako odgovarajući jezični paket nije instaliran, Power Automate pojavljuje se pogreška i traži da ga instalirate. Dodatne informacije o preuzimanju i instaliranju jezičnih paketa potražite u odjeljku Jezični paketi za Windows.
Nakon instalacije odgovarajućeg jezičnog paketa proširite postavke OCR motora OCR akcije i odaberite željeni jezik. Modul Windows OCR podržava 25 jezika, uključujući kineski (pojednostavljeni i tradicionalni), češki, danski, nizozemski, engleski, finski, francuski, njemački, grčki, mađarski, talijanski, japanski, korejski, norveški, poljski, portugalski, rumunjski, ruski, srpski (ćirilica i latinica), slovački, španjolski, švedski i turski.
Koristite Tesseract OCR motor
Napomena
Da biste koristili Tesseract OCR motor, provjerite podržava li procesor stroja AVX2 skup uputa.
Osim Windows OCR motora, Power Automate podržava i Tesseract motor. Ovaj motor može izdvojiti tekst na pet jezika bez daljnje konfiguracije: engleski, njemački, španjolski, francuski i talijanski.
Da biste izdvojili tekst na jeziku izvan spomenutog popisa, omogućite mogućnost Koristi druge jezike u postavkama OCR modula akcije OCR. Kada je ova mogućnost omogućena, akcija prikazuje još dva parametra: kraticu jezika i put podataka Jezik.
Polje Jezična kratica označava motoru koji jezik treba tražiti tijekom OCR-a. Polje Put jezičnih podataka sadrži datoteke jezičnih podataka (.traineddata) koje se koriste za obuku OCR modula. Datoteke jezičnih podataka za sve dostupne jezike možete pronaći u ovom spremištu GitHuba.
Modul Tesseract možete koristiti i za izdvajanje teksta iz višejezičnih dokumenata. Dodatne informacije o izdvajanju teksta iz višejezičnih dokumenata potražite u članku Izvođenje OCR-a na višejezičnim dokumentima.
Ako tekst na zaslonu (OCR)
Označava početak uvjetnog bloka radnji, ovisno o tome pojavljuje li se određeni tekst na zaslonu ili ne, koristeći OCR.
Ulazni parametri
Argument | Neobavezno | Prihvaća | Zadana vrijednost | Opis |
---|---|---|---|---|
Ako tekst | Nije dostupno | Postoji, ne postoji | Postoji | Navodi treba li provjeriti postoji li tekst na određenom izvoru za analizu |
Vrsta OCR modula | No | Windows OCR motor, Tesseract motor, OCR varijabla motora | Varijabla OCR modula | Tip OCR motora koji će se koristiti. Odaberite unaprijed konfigurirani OCR mehanizam ili postavite novi. |
Varijabla OCR modula | No | OCREngineObject | Modul koji se koristi za operaciju OCR-a | |
Tekst za traženje | No | Tekstna vrijednost | Tekst za pretraživanje u navedenom izvoru | |
Jest uobičajeni izraz | Nije dostupno | Booleova vrijednost | Pogrešno | Određuje treba li koristiti uobičajeni izraz za pronalaženje navedenog teksta |
Pretraži tekst na | Nije dostupno | Cijeli zaslon, prozor u prvom planu | Cijeli zaslon | Određuje treba li tražiti navedeni tekst na cijelom vidljivom zaslonu ili samo u prozoru prednjeg plana |
Način pretraživanja | Nije dostupno | Cijeli navedeni izvor, samo specifična podregija, podregija u odnosu na sliku | Cijeli navedeni izvor | Određuje treba li skenirati cijeli zaslon (ili prozor) ili suženo podpodručje |
Slike | No | Popisslika | Slike koje određuju potpodručje (u odnosu na gornji lijevi kut slike) za skeniranje navedenog teksta | |
X1 | Jest | Numerička vrijednost | Početna koordinata X potpodručja za skeniranje određenog teksta | |
Dopušteno odstupanje | Jest | Numerička vrijednost | 1,0 | Određuje koliko se pretražena slika može razlikovati od izvorno odabrane slike |
Y1 | Jest | Numerička vrijednost | Početna koordinata Y potpodručja za skeniranje određenog teksta | |
X1 | Jest | Numerička vrijednost | Početna koordinata X potpodručja u odnosu na određenu sliku za skeniranje navedenog teksta | |
X2 | Jest | Numerička vrijednost | Završna koordinata X potpodručja za skeniranje određenog teksta | |
Y1 | Jest | Numerička vrijednost | Početna koordinata Y potpodručja u odnosu na određenu sliku za skeniranje navedenog teksta | |
Y2 | Jest | Numerička vrijednost | Završna koordinata Y potpodručja za skeniranje određenog teksta | |
X2 | Jest | Numerička vrijednost | Početna završna koordinata X potpodručja u odnosu na određenu sliku za skeniranje navedenog teksta | |
Y2 | Jest | Numerička vrijednost | Početna završna koordinata Y potpodručja u odnosu na određenu sliku za skeniranje navedenog teksta | |
Windows OCR jezik | Nije dostupno | Kineski (pojednostavljeni), kineski (tradicionalni), češki, danski, nizozemski, engleski, finski, francuski, njemački, grčki, mađarski, talijanski, japanski, korejski, norveški, poljski, portugalski, rumunjski, ruski, srpski (ćirilica), srpski (latinica), slovački, španjolski, švedski, turski | English | Jezik teksta koji otkriva OCR modul sustava Windows |
Upotrijebi drugi jezik | Nije dostupno | Booleova vrijednost | Pogrešno | Određuje hoće li se upotrebljavati jezik koji nije naveden u polju „Tesseract jezik” |
Tesseract jezik | Nije dostupno | Engleski, njemački, španjolski, francuski, talijanski | English | Jezik teksta kojeg otkriva modul Tesseract |
Kratica jezika | No | Tekstna vrijednost | Kratica jezika koji će se koristiti teseraktom. Na primjer, ako su podaci "eng.traineddata", postavite ovaj parametar na "eng" | |
Putanja podataka o jeziku | No | Tekstna vrijednost | Putanja mape koja sadrži podatke za Tesseract za određeni jezik | |
Množitelj širine slike | No | Numerička vrijednost | 1 | Množitelj širine slike |
Množitelj visine slike | No | Numerička vrijednost | 1 | Množitelj visine slike |
Algoritam podudaranja slika | Nije dostupno | Osnovno, napredno | Osnovno | Koji algoritam slike koristiti prilikom traženja slike |
Napomena
- Power Automate's regular expression engine je .NET. Dodatne informacije o uobičajenim izrazima potražite u odjeljku Jezik običnog izraza – brzi pregled.
- Planirana je varijabilna opcija OCR motora.
Varijable proizvedene
Argument | Tip | Opis |
---|---|---|
LocationOfTextFoundX | Numerička vrijednost | X koordinata točke na kojoj se tekst pojavljuje na zaslonu. Ako se pretraživanje vrši u prozoru prednjeg plana, vraćena koordinata je u odnosu na gornji lijevi kut prozora |
LocationOfTextFoundY | Numerička vrijednost | X koordinata točke na kojoj se tekst pojavljuje na zaslonu. Ako se pretraživanje vrši u prozoru prednjeg plana, vraćena koordinata je u odnosu na gornji lijevi kut prozora |
Iznimke
Iznimka | Opis |
---|---|
Nije moguće provjeriti postoji li tekst u neinteraktivnom načinu | Označava da nije moguće provjeriti postoji li tekst na zaslonu u neinteraktivnom načinu |
Nevažeće koordinate potpodručja | Označava da koordinate određenog potpodručja nisu važeće |
Tekstualna analitika pomoću OCR-a nije uspjelo | Označava da je došlo do pogreške pri pokušaju analize teksta pomoću OCR-a |
Stvaranje OCR mehanizma nije uspjelo | Označava da je došlo do pogreške pri pokušaju stvaranja OCR mehanizma |
Mapa putanje podataka ne postoji | Označava da mapa koja je navedena za podatke o jeziku ne postoji |
Odabrani jezični paket sustava Windows nije instaliran na računalu | Označava da odabrani jezični paket za Windows nije instaliran na računalu |
OCR mehanizam nije aktivan | Označava da OCR mehanizam nije aktivan |
Pričekajte tekst na zaslonu (OCR)
Pričekajte dok se određeni tekst ne pojavi/nestane na zaslonu, u prozoru prednjeg plana ili u odnosu na sliku na zaslonu ili prozoru u prvom planu pomoću OCR-a.
Ulazni parametri
Argument | Neobavezno | Prihvaća | Zadana vrijednost | Opis |
---|---|---|---|---|
Pričekaj da tekst | Nije dostupno | Pojavi se, nestane | Prikaz | Navodi želite li pričekati da se tekst pojavi ili nestane |
Vrsta OCR modula | No | Windows OCR motor, Tesseract motor, OCR varijabla motora | Varijabla OCR modula | Tip OCR motora koji će se koristiti. Odaberite unaprijed konfigurirani OCR mehanizam ili postavite novi. |
Varijabla OCR modula | No | OCREngineObject | Modul koji se koristi za operaciju OCR-a | |
Tekst za traženje | No | Tekstna vrijednost | Tekst za pretraživanje u navedenom izvoru | |
Jest uobičajeni izraz | Nije dostupno | Booleova vrijednost | Pogrešno | Određuje treba li koristiti uobičajeni izraz za pronalaženje navedenog teksta |
Pretraži tekst na | Nije dostupno | Cijeli zaslon, prozor u prvom planu | Cijeli zaslon | Određuje treba li tražiti navedeni tekst na cijelom vidljivom zaslonu ili samo u prozoru prednjeg plana |
Način pretraživanja | Nije dostupno | Cijeli navedeni izvor, samo specifična podregija, podregija u odnosu na sliku | Cijeli navedeni izvor | Određuje treba li skenirati cijeli zaslon (ili prozor) ili suženo podpodručje |
Slike | No | Popisslika | Slike koje određuju potpodručje (u odnosu na gornji lijevi kut slike) za skeniranje navedenog teksta | |
X1 | Jest | Numerička vrijednost | Početna koordinata X potpodručja za skeniranje određenog teksta | |
Dopušteno odstupanje | Jest | Numerička vrijednost | 1,0 | Određuje koliko se pretražena slika može razlikovati od izvorno odabrane slike |
Y1 | Jest | Numerička vrijednost | Početna koordinata Y potpodručja za skeniranje određenog teksta | |
X1 | Jest | Numerička vrijednost | Početna koordinata X potpodručja u odnosu na određenu sliku za skeniranje navedenog teksta | |
X2 | Jest | Numerička vrijednost | Završna koordinata X potpodručja za skeniranje određenog teksta | |
Y1 | Jest | Numerička vrijednost | Početna koordinata Y potpodručja u odnosu na određenu sliku za skeniranje navedenog teksta | |
Y2 | Jest | Numerička vrijednost | Završna koordinata Y potpodručja za skeniranje određenog teksta | |
X2 | Jest | Numerička vrijednost | Početna završna koordinata X potpodručja u odnosu na određenu sliku za skeniranje navedenog teksta | |
Y2 | Jest | Numerička vrijednost | Početna završna koordinata Y potpodručja u odnosu na određenu sliku za skeniranje navedenog teksta | |
Windows OCR jezik | Nije dostupno | Kineski (pojednostavljeni), kineski (tradicionalni), češki, danski, nizozemski, engleski, finski, francuski, njemački, grčki, mađarski, talijanski, japanski, korejski, norveški, poljski, portugalski, rumunjski, ruski, srpski (ćirilica), srpski (latinica), slovački, španjolski, švedski, turski | English | Jezik teksta koji otkriva OCR modul sustava Windows |
Upotrijebi drugi jezik | Nije dostupno | Booleova vrijednost | Pogrešno | Određuje hoće li se upotrebljavati jezik koji nije naveden u polju „Tesseract jezik” |
Tesseract jezik | Nije dostupno | Engleski, njemački, španjolski, francuski, talijanski | English | Jezik teksta kojeg otkriva modul Tesseract |
Kratica jezika | No | Tekstna vrijednost | Kratica jezika koji će se koristiti teseraktom. Na primjer, ako su podaci "eng.traineddata", postavite ovaj parametar na "eng" | |
Putanja podataka o jeziku | No | Tekstna vrijednost | Putanja mape koja sadrži podatke za Tesseract za određeni jezik | |
Množitelj širine slike | No | Numerička vrijednost | 1 | Množitelj širine slike |
Množitelj visine slike | No | Numerička vrijednost | 1 | Množitelj visine slike |
Algoritam podudaranja slika | Nije dostupno | Osnovno, napredno | Osnovno | Koji algoritam slike koristiti prilikom traženja slike |
Neuspjeh s pogreškom vremenskog ograničenja | Nije dostupno | Booleova vrijednost | Pogrešno | Navedite želite li da radnja čeka neograničeno ili da ne uspije nakon određenog vremenskog razdoblja |
Napomena
- Power Automate's regular expression engine je .NET. Dodatne informacije o uobičajenim izrazima potražite u odjeljku Jezik običnog izraza – brzi pregled.
- Planirana je varijabilna opcija OCR motora.
Varijable proizvedene
Argument | Tip | Opis |
---|---|---|
LocationOfTextFoundX | Numerička vrijednost | X koordinata točke na kojoj se tekst pojavljuje na zaslonu. Ako se pretraživanje vrši u prozoru prednjeg plana, vraćena koordinata je u odnosu na gornji lijevi kut prozora |
LocationOfTextFoundY | Numerička vrijednost | X koordinata točke na kojoj se tekst pojavljuje na zaslonu. Ako se pretraživanje vrši u prozoru prednjeg plana, vraćena koordinata je u odnosu na gornji lijevi kut prozora |
Iznimke
Iznimka | Opis |
---|---|
Nije moguće provjeriti postoji li tekst u neinteraktivnom načinu | Označava da nije moguće provjeriti postoji li tekst na zaslonu u neinteraktivnom načinu |
Nevažeće koordinate potpodručja | Označava da koordinate određenog potpodručja nisu važeće |
Tekstualna analitika pomoću OCR-a nije uspjelo | Označava da je došlo do pogreške pri pokušaju analize teksta pomoću OCR-a |
Stvaranje OCR mehanizma nije uspjelo | Označava da je došlo do pogreške pri pokušaju stvaranja OCR mehanizma |
Mapa putanje podataka ne postoji | Označava da mapa koja je navedena za podatke o jeziku ne postoji |
Odabrani jezični paket sustava Windows nije instaliran na računalu | Označava da odabrani jezični paket za Windows nije instaliran na računalu |
OCR mehanizam nije aktivan | Označava da OCR mehanizam nije aktivan |
Pogreška vremenskog ograničenja | Označava da akcija nije uspjela nakon određenog vremenskog razdoblja |
Izdvoji tekst pomoću OCR-a
Izdvojite tekst iz određenog izvora pomoću zadanog OCR modula.
Ulazni parametri
Argument | Neobavezno | Prihvaća | Zadana vrijednost | Opis |
---|---|---|---|---|
OCR mehanizam | No | Windows OCR motor, Tesseract motor, OCR varijabla motora | Varijabla OCR modula | Tip OCR motora koji će se koristiti. Odaberite unaprijed konfigurirani OCR mehanizam ili postavite novi |
Varijabla OCR modula | No | OCREngineObject | Modul koji se koristi za operaciju OCR-a | |
OCR izvor | Nije dostupno | Zaslon, prozor u prvom planu, Slika na disku | Zaslon | Izvor slike za izvršenje OCR operacije |
Putanja slikovne datoteke | No | Datoteka | Put slike na kojoj se izvodi OCR operacija | |
Način pretraživanja | Nije dostupno | Cijeli navedeni izvor, samo specifična podregija, podregija u odnosu na sliku | Cijeli navedeni izvor | Odabrani način za OCR operaciju |
Image | No | Popisslika | Slika koja će se koristiti za sužavanje skeniranja na podregiju koja je u odnosu na navedenu sliku | |
Dopušteno odstupanje | Jest | Numerička vrijednost | 1,0 | Određuje koliko se slika može razlikovati od izvorno odabrane slike |
X1 | Jest | Numerička vrijednost | Početna koordinata X potpodručja za sužavanje skeniranja | |
X2 | Jest | Numerička vrijednost | Završna koordinata X potpodručja za sužavanje skeniranja | |
Y1 | Jest | Numerička vrijednost | Početna koordinata Y potpodručja za sužavanje skeniranja | |
Y2 | Jest | Numerička vrijednost | Završna koordinata Y potpodručja za sužavanje skeniranja | |
Windows OCR jezik | Nije dostupno | Kineski (pojednostavljeni), kineski (tradicionalni), češki, danski, nizozemski, engleski, finski, francuski, njemački, grčki, mađarski, talijanski, japanski, korejski, norveški, poljski, portugalski, rumunjski, ruski, srpski (ćirilica), srpski (latinica), slovački, španjolski, švedski, turski | English | Jezik teksta koji otkriva OCR modul sustava Windows |
Upotrijebi drugi jezik | Nije dostupno | Booleova vrijednost | Pogrešno | Određuje hoće li se upotrebljavati jezik koji nije naveden u polju „Tesseract jezik” |
Tesseract jezik | Nije dostupno | Engleski, njemački, španjolski, francuski, talijanski | English | Jezik teksta kojeg otkriva modul Tesseract |
Kratica jezika | No | Tekstna vrijednost | Kratica jezika koji će se koristiti teseraktom. Na primjer, ako su podaci "eng.traineddata", postavite ovaj parametar na "eng" | |
Putanja podataka o jeziku | No | Tekstna vrijednost | Putanja mape koja sadrži podatke za Tesseract za određeni jezik | |
Množitelj širine slike | No | Numerička vrijednost | 1 | Množitelj širine slike |
Množitelj visine slike | No | Numerička vrijednost | 1 | Množitelj visine slike |
Pričekaj pojavljivanje slike | Nije dostupno | Booleova vrijednost | Točno | Određuje treba li pričekati da se slika pojavi na zaslonu ili u prednjem prozoru |
Vremensko ograničenje | No | Numerička vrijednost | 5 | Određuje vrijeme čekanja na dovršetak operacije prije nego što se radnja proglasi neuspjelom |
Algoritam podudaranja slika | Nije dostupno | Osnovno, napredno | Osnovno | Koji algoritam slike koristiti prilikom traženja slike |
Napomena
Planirana je varijabilna opcija OCR motora.
Varijable proizvedene
Argument | Tip | Opis |
---|---|---|
OcrText | Tekstna vrijednost | Rezultat nakon izdvajanja teksta |
Iznimke
Iznimka | Opis |
---|---|
Izdvajanje teksta pomoću OCR-a nije uspjelo | Označava da se dogodila pogreška pri pokušaju izdvajanja teksta pomoću OCR-a iz određenog izvora |
Slikovna datoteka nije pronađena | Označava da datoteka ne postoji na navedenoj putanji |
Slika orijentira nije pronađena | Označava da slika orijentira ne postoji |
Tekst se ne može dohvatiti sa zaslona u neinteraktivnom načinu | Označava da nije moguće dohvatiti tekst sa zaslona u neinteraktivnom načinu |
Stvaranje OCR mehanizma nije uspjelo | Označava da je došlo do pogreške pri pokušaju stvaranja OCR mehanizma |
Mapa putanje podataka ne postoji | Označava da mapa koja je navedena za podatke o jeziku ne postoji |
Odabrani jezični paket sustava Windows nije instaliran na računalu | Označava da odabrani jezični paket za Windows nije instaliran na računalu |
OCR mehanizam nije aktivan | Označava da OCR mehanizam nije aktivan |