OCR – optické rozpoznávání znaků
OCR neboli optické rozpoznávání znaků se také označuje jako rozpoznání textu nebo extrahování textu. Techniky OCR založené na strojovém učení umožňují extrahovat tištěný nebo ručně psaný text z obrázků, jako jsou plakáty, dopravní značky a etikety výrobků, a také z dokumentů, jako jsou články, zprávy, formuláře a faktury. Text se obvykle extrahuje jako slova, řádky textu a odstavce nebo bloky textu, což umožňuje přístup k digitální verzi naskenovaného textu. Tím se eliminuje nebo výrazně snižuje nutnost ručního zadávání dat.
Modul OCR
Modul Read OCR od Microsoftu se skládá z několika pokročilých modelů založených na strojovém učení podporujících globální jazyky. Může extrahovat tištěný a ručně psaný text, včetně smíšených jazyků a stylů psaní. Čtení je k dispozici jako cloudová služba a místní kontejner pro flexibilitu nasazení. Je také k dispozici jako synchronní rozhraní API pro scénáře pouze s jedním dokumentem bez dokumentu s vylepšeními výkonu, které usnadňují implementaci uživatelských prostředí s asistencí OCR.
Upozorňující
Pro použití se nedoporučuje starší rozhraní API OCR služby Azure AI Vision ve verzi 3.2 a rozhraní RecognizeText API v operacích verze 2.1 .
Edice OCR (Read)
Důležité
Vyberte edici Read, která nejlépe vyhovuje vašim požadavkům.
Vstup | Příklady | Číst edici | Výhoda |
---|---|---|---|
Obrázky: Obecné, in-the-wild images | štítky, dopravní značky a plakáty | OCR pro image (verze 4.0) | Optimalizované pro obecné nedokumentované obrázky s využitím synchronního rozhraní API s vylepšeným výkonem, které usnadňuje vkládání OCR ve scénářích uživatelského prostředí. |
Dokumenty: Digitální a naskenované, včetně obrázků | knihy, články a sestavy | Model čtení funkce Document Intelligence | Optimalizované pro naskenované a digitální dokumenty náročné na text s asynchronním rozhraním API, které pomáhá automatizovat inteligentní zpracování dokumentů ve velkém měřítku. |
Informace o azure AI Vision verze 3.2 – obecná dostupnost
Hledáte nejnovější verzi Ga služby Azure AI Vision verze 3.2? Všechna budoucí vylepšení OCR pro čtení jsou součástí dvou dříve uvedených služeb. Ve službě Azure AI Vision verze 3.2 nejsou žádné další aktualizace. Další informace najdete v tématu Volání rozhraní AZURE AI Vision 3.2 GA Read API a rychlého startu: Azure AI Vision v3.2 GA Read.
Jak souvisí technologie OCR s inteligentním zpracováním dokumentů (IDP)?
Inteligentní zpracování dokumentů (IDP) využívá technologii OCR jako svou základní technologii k extrahování struktury, vztahů, hodnot klíčů, entit a dalších přehledů orientovaných na dokument s pokročilou službou AI založenou na strojovém učení, jako je Document Intelligence. Funkce Document Intelligence zahrnuje verzi funkce Read optimalizovanou pro čtení jako svůj modul OCR a delegování na jiné modely pro přehledy vyšší úrovně. Pokud extrahujete text z naskenovaných a digitálních dokumentů, použijte funkci Document Intelligence Read OCR.
Jak používat OCR
Vyzkoušejte OCR pomocí nástroje Vision Studio. Pak postupujte podle jednoho z odkazů na edici Read, která nejlépe vyhovuje vašim požadavkům.
Podporované jazyky OCR
Obě verze pro čtení dostupné dnes v Azure AI Vision podporují několik jazyků pro tištěný a ručně psaný text. OCR pro tištěný text obsahuje podporu pro angličtinu, francouzštinu, němčinu, italštinu, portugalštinu, španělštinu, čínštinu, japonštinu, korejštinu, ruštinu, arabštinu, hindštinu a další mezinárodní jazyky, které používají latinku, cyrilici, arabštinu a devanagarštinu. OCR pro rukou psaný text obsahuje podporu pro angličtinu, zjednodušenou čínštinu, francouzštinu, němčinu, italštinu, japonštinu, korejštinu, portugalštinu a španělštinu.
Projděte si úplný seznam jazyků podporovaných službou OCR.
Běžné funkce OCR
Model Read OCR je k dispozici ve službě Azure AI Vision a Document Intelligence s běžnými základními možnostmi při optimalizaci pro příslušné scénáře. Následující seznam shrnuje běžné funkce:
- Extrakce tištěného a rukou psaného textu v podporovaných jazycích
- Stránky, textové řádky a slova s umístěním a skóre spolehlivosti
- Podpora smíšených jazyků, smíšeného režimu (tisk a rukopis)
- K dispozici jako kontejner Dockeru bez distribuce pro místní nasazení
Použití cloudových rozhraní API pro OCR nebo nasazení v místním prostředí
Cloudová rozhraní API jsou upřednostňovanou možností pro většinu zákazníků kvůli snadné integraci a rychlé produktivitě. Azure a služba Azure AI Vision zpracovávají potřeby škálování, výkonu, zabezpečení dat a dodržování předpisů, zatímco se zaměřujete na splnění potřeb zákazníků.
V případě místního nasazení umožňuje kontejner Read Dockeru nasadit obecně dostupné funkce OCR azure AI Vision v3.2 ve vašem místním prostředí. Kontejnery jsou skvělé pro splnění určitých požadavků na zabezpečení a zásady správného řízení dat.
Požadavky na vstup
Rozhraní API pro čtení přebírá obrázky a dokumenty jako svůj vstup. Obrázky a dokumenty musí splňovat následující požadavky:
- Podporované formáty souborů jsou JPEG, PNG, BMP, PDF a TIFF.
- U souborů PDF a TIFF se zpracovává maximálně 2000 stránek (bezplatná úroveň zpracovává jen první dvě stránky).
- Velikost souboru obrázků musí být menší než 500 MB (4 MB pro bezplatnou úroveň) s rozměry nejméně 50 × 50 pixelů a maximálně 10 000 × 10 000 pixelů. Soubory PDF nemají žádný limit velikosti.
- Minimální výška textu, který se má extrahovat, je 12 pixelů pro obrázek 1024 x 768, který odpovídá přibližně 8bodovému písmu při 150 DPI.
Poznámka:
Nemusíte oříznout obrázek pro textové řádky. Odešle celý obrázek do rozhraní API pro čtení a rozpozná všechny texty.
Ochrana osobních údajů a zabezpečení dat OCR
Stejně jako u všech služeb Azure AI by vývojáři, kteří používají službu Azure AI Vision, měli vědět o zásadách Microsoftu ohledně zákaznických dat. Další informace najdete na stránce služeb Azure AI v Centru zabezpečení Microsoftu.
Další kroky
- OCR pro obecné obrázky (bez dokumentu): Vyzkoušejte rychlý start k rozhraní REST API pro analýzu obrázků Ve verzi Preview služby Azure AI Vision 4.0.
- OCR pro dokumenty PDF, Dokumenty Office a HTML a obrázky dokumentů: začněte funkcí Document Intelligence Read.
- Hledáte předchozí verzi GA? Projděte si rychlá zprovoznění sady Azure AI Vision 3.2 GA SDK nebo rozhraní REST API.