Dejanja OCR
Power Automate uporabnikom omogoča branje, ekstrahiranje in upravljanje podatkov v datotekah prek optičnega prepoznavanja znakov (OCR).
Če želite ustvariti mehanizem OCR in izvleči besedilo iz slik in dokumentov, uporabite dejanje Izvleček besedila z OCR . Naslednji primer izvleče besedilo iz celotne navedene slike.
Vsa dejanja OCR lahko ustvarijo novo spremenljivko mehanizma OCR ali uporabijo obstoječo. Obstoječe spremenljivke mehanizma OCR lahko uporabite v katerem koli dejanju, ki ponuja zmožnosti OCR.
Power Automate podpira mehanizme Windows OCR in Tesseract. Če želite konfigurirati izbrani mehanizem OCR, se pomaknite do nastavitev mehanizma OCR ustreznega dejanja. Razpoložljive možnosti vključujejo jezik ter množilnike širine in višine slike.
opomba,
- Vsi razpoložljivi motorji OCR so vnaprej nameščeni v Power Automate in delujejo lokalno brez povezave z oblakom. Vendar boste morda morali prenesti jezikovne pakete ali podatkovne datoteke, da izvlečete besedila v določenih jezikih.
- Množilniki slik povečajo velikost slike, da je iskanje in ekstrakcija besedila učinkovitejša. Če nastavite vrednosti, večje od tri, lahko pride do napačnih rezultatov.
Uporabite mehanizem Windows OCR
Privzeti mehanizem OCR v Power Automate je sistem Windows OCR. Če želite izvleči besedila z orodjem Windows OCR, morate namestiti ustrezen jezikovni paket za jezik, ki ga želite izvleči.
Če ustrezni jezikovni paket ni nameščen, Power Automate prikaže napako in vas pozove, da ga namestite. Če želite več informacij o prenosu in namestitvi jezikovnih paketov, pojdite na Jezikovni paketi za Windows.
Po namestitvi ustreznega jezikovnega paketa razširite nastavitve motorja OCR dejanja OCR in izberite želeni jezik. Mehanizem Windows OCR podpira 25 jezikov, vključno s kitajščino (poenostavljeno in tradicionalno), češčino, dansko, nizozemsko, angleško, finsko, francosko, nemško, grško, madžarsko, italijansko, japonsko, korejsko, norveško, poljsko, portugalsko, romunsko, rusko, Srbščina (cirilica in latinica), slovaščina, španščina, švedščina in turščina.
Uporabite motor Tesseract OCR
opomba,
Če želite uporabljati motor Tesseract OCR, se prepričajte, da CPE stroja podpira nabor navodil AVX2.
Poleg mehanizma Windows OCR Power Automate podpira motor Tesseract. Ta mehanizem lahko izvleče besedilo v petih jezikih brez dodatne konfiguracije: angleščini, nemščini, španščini, francoščini in italijanščini.
Če želite izvleči besedilo v jeziku zunaj omenjenega seznama, omogočite možnost Uporabi druge jezike v nastavitvah motorja OCR dejanja OCR. Ko je ta možnost omogočena, dejanje prikaže še dva parametra: Okrajšava jezika in Pot do podatkov o jeziku.
Polje Jezikovna okrajšava mehanizmu pokaže, kateri jezik naj išče med OCR. Polje Pot podatkov o jeziku vsebuje datoteke z jezikovnimi podatki (.traineddata), ki se uporabljajo za usposabljanje mehanizma OCR. Jezikovne podatkovne datoteke za vse razpoložljive jezike najdete v tem GitHubovem repozitoriju.
Za pridobivanje besedila iz večjezičnih dokumentov lahko uporabite tudi mehanizem Tesseract. Če želite poiskati več informacij o pridobivanju besedila iz večjezičnih dokumentov, pojdite na Izvedba OCR na večjezičnih dokumentih.
Če je besedilo na zaslonu (OCR)
Označuje začetek pogojnega bloka dejanj, odvisno od tega, ali se dano besedilo prikaže na zaslonu ali ne, z uporabo OCR.
Parametri vnosa
Argument | Po izbiri | Sprejema | Privzeta vrednost | Description |
---|---|---|---|---|
Če besedilo | / | Obstaja, Ne obstaja | Obstaja | Določa, ali je treba preveriti, ali besedilo obstaja v danem viru za analiziranje |
Vrsta mehanizma za OCR | No | Motor Windows OCR, motor Tesseract, spremenljivka mehanizma OCR | Spremenljivka mehanizma za OCR | Vrsta mehanizma OCR, ki ga želite uporabiti. Izberite vnaprej konfiguriran mehanizem OCR ali nastavite novega. |
Spremenljivka mehanizma za OCR | No | OCREngineObject | Mehanizem, ki ga je treba uporabiti za postopek OCR | |
Besedilo, ki ga je treba najti | No | Besedilna vrednost | Besedilo, ki ga je treba iskati v navedenem viru | |
Je regularni izraz | / | Logična vrednost | Neresnično | Podaja, ali naj se za iskanje podanega besedila uporabi regularni izraz |
Iskanje besedila na | / | Cel zaslon, okno v ospredju | Celoten zaslon | Podaja, ali naj določeno besedilo išče na celotnem vidnem zaslonu ali le v oknu v ospredju |
Način iskanja | / | Celoten navedeni vir, samo določena podregija, podregija glede na sliko | Celoten določen vir | Določa, ali naj se skenira celoten zaslon (ali okno) ali njegovo zoženo podregijo |
Slike | No | Seznam od Slike | Slike, ki določajo podobmočje (relativno na zgornji levi kot slike) za iskanje navedenega besedila | |
X1 | Da | Številčna vrednost | Začetna koordinata X podobmočja, na katerem je treba poiskati navedeno besedilo | |
Toleranca | Da | Številčna vrednost | 10 | Določa, koliko se lahko iskane slike razlikujejo od prvotno izbrane slike |
Y1 | Da | Številčna vrednost | Začetna koordinata Y podobmočja, na katerem je treba poiskati navedeno besedilo | |
X1 | Da | Številčna vrednost | Začetna koordinata X podobmočja relativno na navedeno sliko, na kateri je treba poiskati navedeno besedilo | |
X2 | Da | Številčna vrednost | Končna koordinata X podobmočja, na katerem je treba poiskati navedeno besedilo | |
Y1 | Da | Številčna vrednost | Začetna koordinata Y podobmočja relativno na navedeno sliko, na kateri je treba poiskati navedeno besedilo | |
Y2 | Da | Številčna vrednost | Končna koordinata Y podobmočja, na katerem je treba poiskati navedeno besedilo | |
X2 | Da | Številčna vrednost | Končna koordinata X podobmočja relativno na navedeno sliko, na kateri je treba poiskati navedeno besedilo | |
Y2 | Da | Številčna vrednost | Končna koordinata Y podobmočja relativno na navedeno sliko, na kateri je treba poiskati navedeno besedilo | |
Jezik Windows OCR | / | Kitajščina (poenostavljena), kitajščina (tradicionalna), češčina, danščina, nizozemščina, angleščina, finščina, francoščina, nemščina, grščina, madžarščina, italijanščina, japonščina, korejščina, norveščina, poljščina, portugalščina, romunščina, ruščina, srbščina (cirilica), srbščina (latinica), slovaščina, španščina, švedščina, turščina | English | Jezik besedila, ki ga zazna mehanizem OCR sistema Windows |
Uporabi drug jezik | / | Logična vrednost | Neresnično | Določa, ali naj se uporabi jezik, ki ni naveden v polju »Jezik za Tesseract« |
Jezik za Tesseract | / | Angleščina, nemščina, španščina, francoščina, italijanščina | English | Jezik besedila, ki ga zazna mehanizem Tesseract |
Okrajšava jezika | No | Besedilna vrednost | Kratica Tesseract jezika, ki ga je treba uporabiti. Če so podatki na primer 'eng.traineddata', nastavite ta parameter na 'eng' | |
Pot do jezikovnih podatkov | No | Besedilna vrednost | Pot do mape, ki vsebuje podatke mehanizma Tesseract za navedeni jezik | |
Množitelj širine slike | No | Številčna vrednost | 1 | Množitelj širine slike |
Množitelj višine slike | No | Številčna vrednost | 1 | Množitelj višine slike |
Algoritem za iskanje ujemanja slik | / | Osnovno, Napredno | Osnovni | Kateri slikovni algoritem uporabiti pri iskanju slike |
opomba,
- Power AutomateMehanizem za regularne izraze je .NET. Za več informacij o regularnih izrazih pojdite na Jezik regularnih izrazov – hiter napotek.
- Možnost spremenljivke motorja OCR je načrtovana za opustitev.
Ustvarjene spremenljivke
Argument | Vnesi | Description |
---|---|---|
LocationOfTextFoundX | Številčna vrednost | Koordinata X točke, kjer se besedilo pojavi na zaslonu. Če se iskanje izvaja v oknu v ospredju, je vrnjena koordinata relativna glede na zgornji levi kot okna |
LocationOfTextFoundY | Številčna vrednost | Koordinata X točke, kjer se besedilo pojavi na zaslonu. Če se iskanje izvaja v oknu v ospredju, je vrnjena koordinata relativna glede na zgornji levi kot okna |
Izjeme
Izjema | Description |
---|---|
V neinteraktivnem načinu ni mogoče preveriti, ali besedilo obstaja | Označuje, da v neinteraktivnem načinu ni mogoče preveriti, ali je besedilo na zaslonu |
Neveljavne koordinate podobmočja | Označuje, da so navedene koordinate podobmočja neveljavne |
Besedila ni bilo mogoče analizirati z OCR | Označuje, da je pri poskusu analiziranja besedila z OCR prišlo do napake |
Mehanizma za OCR ni bilo mogoče ustvariti | Označuje, da je pri poskusu ustvarjanja mehanizma za OCR prišlo do napake |
Mapa na poti do podatkov ne obstaja | Označuje, da mapa, navedena za jezikovne podatke, ne obstaja |
Izbrani jezikovni paket Windows ni nameščen v računalniku | Označuje, da izbrani jezikovni paket za Windows ni bil nameščen v napravi |
Mehanizem za OCR ni dejaven | Označuje, da mehanizem za OCR ni dejaven |
Počakaj na besedilo na zaslonu (OCR)
Počakajte, da se določeno besedilo prikaže/izgine na zaslonu, v oknu v ospredju ali glede na sliko na zaslonu ali oknu v ospredju z OCR.
Parametri vnosa
Argument | Po izbiri | Sprejema | Privzeta vrednost | Description |
---|---|---|---|---|
Počakaj, da besedilo: | / | Pojavi se, izgine | Prikaže | Določa, ali je treba počakati, da se besedilo prikaže ali izgine |
Vrsta mehanizma za OCR | No | Motor Windows OCR, motor Tesseract, spremenljivka mehanizma OCR | Spremenljivka mehanizma za OCR | Vrsta mehanizma OCR, ki ga želite uporabiti. Izberite vnaprej konfiguriran mehanizem OCR ali nastavite novega. |
Spremenljivka mehanizma za OCR | No | OCREngineObject | Mehanizem, ki ga je treba uporabiti za postopek OCR | |
Besedilo, ki ga je treba najti | No | Vrednost besedila | Besedilo, ki ga je treba iskati v navedenem viru | |
Je regularni izraz | / | Logična vrednost | Neresnično | Podaja, ali naj se za iskanje podanega besedila uporabi regularni izraz |
Iskanje besedila na | / | Cel zaslon, okno v ospredju | Celoten zaslon | Podaja, ali naj določeno besedilo išče na celotnem vidnem zaslonu ali le v oknu v ospredju |
Način iskanja | / | Celoten navedeni vir, samo določena podregija, podregija glede na sliko | Celoten določen vir | Določa, ali naj se skenira celoten zaslon (ali okno) ali njegovo zoženo podregijo |
Slike | No | Seznam od Slike | Slike, ki določajo podobmočje (relativno na zgornji levi kot slike) za iskanje navedenega besedila | |
X1 | Da | Številčna vrednost | Začetna koordinata X podobmočja, na katerem je treba poiskati navedeno besedilo | |
Toleranca | Da | Številčna vrednost | 10 | Določa, koliko se lahko iskane slike razlikujejo od prvotno izbrane slike |
Y1 | Da | Številčna vrednost | Začetna koordinata Y podobmočja, na katerem je treba poiskati navedeno besedilo | |
X1 | Da | Številčna vrednost | Začetna koordinata X podobmočja relativno na navedeno sliko, na kateri je treba poiskati navedeno besedilo | |
X2 | Da | Številčna vrednost | Končna koordinata X podobmočja, na katerem je treba poiskati navedeno besedilo | |
Y1 | Da | Številčna vrednost | Začetna koordinata Y podobmočja relativno na navedeno sliko, na kateri je treba poiskati navedeno besedilo | |
Y2 | Da | Številčna vrednost | Končna koordinata Y podobmočja, na katerem je treba poiskati navedeno besedilo | |
X2 | Da | Številčna vrednost | Končna koordinata X podobmočja relativno na navedeno sliko, na kateri je treba poiskati navedeno besedilo | |
Y2 | Da | Številčna vrednost | Končna koordinata Y podobmočja relativno na navedeno sliko, na kateri je treba poiskati navedeno besedilo | |
Jezik Windows OCR | / | Kitajščina (poenostavljena), kitajščina (tradicionalna), češčina, danščina, nizozemščina, angleščina, finščina, francoščina, nemščina, grščina, madžarščina, italijanščina, japonščina, korejščina, norveščina, poljščina, portugalščina, romunščina, ruščina, srbščina (cirilica), srbščina (latinica), slovaščina, španščina, švedščina, turščina | English | Jezik besedila, ki ga zazna mehanizem OCR sistema Windows |
Uporabi drug jezik | / | Logična vrednost | Neresnično | Določa, ali naj se uporabi jezik, ki ni naveden v polju »Jezik za Tesseract« |
Jezik za Tesseract | / | Angleščina, nemščina, španščina, francoščina, italijanščina | English | Jezik besedila, ki ga zazna mehanizem Tesseract |
Okrajšava jezika | No | Besedilna vrednost | Kratica Tesseract jezika, ki ga je treba uporabiti. Če so podatki na primer 'eng.traineddata', nastavite ta parameter na 'eng' | |
Pot do jezikovnih podatkov | No | Besedilna vrednost | Pot do mape, ki vsebuje podatke mehanizma Tesseract za navedeni jezik | |
Množitelj širine slike | No | Številčna vrednost | 1 | Množitelj širine slike |
Množitelj višine slike | No | Številčna vrednost | 1 | Množitelj višine slike |
Algoritem za iskanje ujemanja slik | / | Osnovno, Napredno | Osnovni | Kateri slikovni algoritem uporabiti pri iskanju slike |
Napaka neuspeha s časovno omejitvijo | / | Logična vrednost | Neresnično | Določi, ali naj dejanje čaka časovno neomejeno ali se postopek šteje kot neuspešen po nastavljenem časovnem obdobju |
opomba,
- Power AutomateMehanizem za regularne izraze je .NET. Za več informacij o regularnih izrazih pojdite na Jezik regularnih izrazov – hiter napotek.
- Možnost spremenljivke motorja OCR je načrtovana za opustitev.
Ustvarjene spremenljivke
Argument | Vnesi | Description |
---|---|---|
LocationOfTextFoundX | Številčna vrednost | Koordinata X točke, kjer se besedilo pojavi na zaslonu. Če se iskanje izvaja v oknu v ospredju, je vrnjena koordinata relativna glede na zgornji levi kot okna |
LocationOfTextFoundY | Številčna vrednost | Koordinata X točke, kjer se besedilo pojavi na zaslonu. Če se iskanje izvaja v oknu v ospredju, je vrnjena koordinata relativna glede na zgornji levi kot okna |
Izjeme
Izjema | Description |
---|---|
V neinteraktivnem načinu ni mogoče preveriti, ali besedilo obstaja | Označuje, da v neinteraktivnem načinu ni mogoče preveriti, ali je besedilo na zaslonu |
Neveljavne koordinate podobmočja | Označuje, da so navedene koordinate podobmočja neveljavne |
Besedila ni bilo mogoče analizirati z OCR | Označuje, da je pri poskusu analiziranja besedila z OCR prišlo do napake |
Mehanizma za OCR ni bilo mogoče ustvariti | Označuje, da je pri poskusu ustvarjanja mehanizma za OCR prišlo do napake |
Mapa na poti do podatkov ne obstaja | Označuje, da mapa, navedena za jezikovne podatke, ne obstaja |
Izbrani jezikovni paket Windows ni nameščen v računalniku | Označuje, da izbrani jezikovni paket za Windows ni bil nameščen v napravi |
Mehanizem za OCR ni dejaven | Označuje, da mehanizem za OCR ni dejaven |
Napaka časovne omejitve | Označuje, da dejanje ni uspelo po določenem časovnem obdobju |
Izvleci besedilo z OCR-jem
Ekstrahirajte besedilo iz danega vira z uporabo danega mehanizma OCR.
Parametri vnosa
Argument | Po izbiri | Sprejema | Privzeta vrednost | Description |
---|---|---|---|---|
Mehanizem za OCR | No | Motor Windows OCR, motor Tesseract, spremenljivka mehanizma OCR | Spremenljivka mehanizma za OCR | Vrsta mehanizma OCR, ki ga želite uporabiti. Izberite vnaprej konfiguriran mehanizem OCR ali nastavite novega |
Spremenljivka mehanizma za OCR | No | OCREngineObject | Mehanizem, ki ga je treba uporabiti za postopek OCR | |
Vir za OCR | / | Zaslon, okno v ospredju, slika na disku | Zaslon | Vir slike, na kateri je treba izvesti postopek OCR |
Pot slikovne datoteke | No | mapa | Pot slike za izvedbo operacije OCR | |
Način iskanja | / | Celoten navedeni vir, samo določena podregija, podregija glede na sliko | Celoten določen vir | Izbrani način za postopek OCR |
Image | No | Seznam od Slike | Slika, ki se uporablja za zožitev skeniranja na podregijo, ki je relativna glede na navedeno sliko | |
Toleranca | Da | Številčna vrednost | 10 | Določa, koliko se lahko slika razlikuje od prvotno izbrane slike |
X1 | Da | Številčna vrednost | Začetna koordinata X podobmočja za omejitev iskanja | |
X2 | Da | Številčna vrednost | Končna koordinata X podobmočja za omejitev iskanja | |
Y1 | Da | Številčna vrednost | Začetna koordinata Y podobmočja za omejitev iskanja | |
Y2 | Da | Številčna vrednost | Končna koordinata Y podobmočja za omejitev iskanja | |
Jezik Windows OCR | / | Kitajščina (poenostavljena), kitajščina (tradicionalna), češčina, danščina, nizozemščina, angleščina, finščina, francoščina, nemščina, grščina, madžarščina, italijanščina, japonščina, korejščina, norveščina, poljščina, portugalščina, romunščina, ruščina, srbščina (cirilica), srbščina (latinica), slovaščina, španščina, švedščina, turščina | English | Jezik besedila, ki ga zazna mehanizem OCR sistema Windows |
Uporabi drug jezik | / | Logična vrednost | Neresnično | Določa, ali naj se uporabi jezik, ki ni naveden v polju »Jezik za Tesseract« |
Jezik za Tesseract | / | Angleščina, nemščina, španščina, francoščina, italijanščina | English | Jezik besedila, ki ga zazna mehanizem Tesseract |
Okrajšava jezika | No | Besedilna vrednost | Kratica Tesseract jezika, ki ga je treba uporabiti. Če so podatki na primer 'eng.traineddata', nastavite ta parameter na 'eng' | |
Pot do jezikovnih podatkov | No | Vrednost besedila | Pot do mape, ki vsebuje podatke mehanizma Tesseract za navedeni jezik | |
Množitelj širine slike | No | Številčna vrednost | 1 | Množitelj širine slike |
Množitelj višine slike | No | Številčna vrednost | 1 | Množitelj višine slike |
Počakaj, da se slika prikaže | / | Logična vrednost | Resnično | Določa, ali je treba čakati, da se slika prikaže na zaslonu ali oknu v ospredju |
Časovna omejitev | No | Številčna vrednost | 5 | Določa čas čakanja, da se postopek konča, preden dejanje ne uspe |
Algoritem za iskanje ujemanja slik | / | Osnovno, Napredno | Osnovni | Kateri slikovni algoritem uporabiti pri iskanju slike |
opomba,
Možnost spremenljivke motorja OCR je načrtovana za opustitev.
Ustvarjene spremenljivke
Argument | Vnesi | Description |
---|---|---|
OcrText | Vrednost besedila | Rezultat po ekstrakciji besedila |
Izjeme
Izjema | Description |
---|---|
Besedila ni bilo mogoče izvleči z OCR | Označuje, da je prišlo do napake med poskusom izvlečenja besedila z OCR iz danega vira |
Slikovne datoteke ni mogoče najti | Označuje, da datoteka ne obstaja na navedeni poti |
Slike znamenitosti ni mogoče najti | Označuje, da slika znamenitosti ne obstaja |
V neinteraktivnem načinu ni mogoče pridobiti besedila z zaslona | Označuje, da v neinteraktivnem načinu ni mogoče pridobiti besedila z zaslona |
Mehanizma za OCR ni bilo mogoče ustvariti | Označuje, da je pri poskusu ustvarjanja mehanizma za OCR prišlo do napake |
Mapa na poti do podatkov ne obstaja | Označuje, da mapa, navedena za jezikovne podatke, ne obstaja |
Izbrani jezikovni paket Windows ni nameščen v računalniku | Označuje, da izbrani jezikovni paket za Windows ni bil nameščen v napravi |
Mehanizem za OCR ni dejaven | Označuje, da mehanizem za OCR ni dejaven |