OCR – optické rozpoznávání znaků

Článek
10/17/2024

OCR neboli optické rozpoznávání znaků se také označuje jako rozpoznání textu nebo extrahování textu. Techniky OCR založené na strojovém učení umožňují extrahovat tištěný nebo ručně psaný text z obrázků, jako jsou plakáty, dopravní značky a etikety výrobků, a také z dokumentů, jako jsou články, zprávy, formuláře a faktury. Text se obvykle extrahuje jako slova, řádky textu a odstavce nebo bloky textu, což umožňuje přístup k digitální verzi naskenovaného textu. Tím se eliminuje nebo výrazně snižuje nutnost ručního zadávání dat.

Modul OCR

Modul Read OCR od Microsoftu se skládá z několika pokročilých modelů založených na strojovém učení podporujících globální jazyky. Může extrahovat tištěný a ručně psaný text, včetně smíšených jazyků a stylů psaní. Čtení je k dispozici jako cloudová služba a místní kontejner pro flexibilitu nasazení. Je také k dispozici jako synchronní rozhraní API pro scénáře pouze s jedním dokumentem bez dokumentu s vylepšeními výkonu, které usnadňují implementaci uživatelských prostředí s asistencí OCR.

Upozorňující

Pro použití se nedoporučuje starší rozhraní API OCR služby Azure AI Vision ve verzi 3.2 a rozhraní RecognizeText API v operacích verze 2.1 .

Edice OCR (Read)

Důležité

Vyberte edici Read, která nejlépe vyhovuje vašim požadavkům.

Vstup	Příklady	Číst edici	Výhoda
Obrázky: Obecné, in-the-wild images	štítky, dopravní značky a plakáty	OCR pro image (verze 4.0)	Optimalizované pro obecné nedokumentované obrázky s využitím synchronního rozhraní API s vylepšeným výkonem, které usnadňuje vkládání OCR ve scénářích uživatelského prostředí.
Dokumenty: Digitální a naskenované, včetně obrázků	knihy, články a sestavy	Model čtení funkce Document Intelligence	Optimalizované pro naskenované a digitální dokumenty náročné na text s asynchronním rozhraním API, které pomáhá automatizovat inteligentní zpracování dokumentů ve velkém měřítku.

Informace o azure AI Vision verze 3.2 – obecná dostupnost

Hledáte nejnovější verzi Ga služby Azure AI Vision verze 3.2? Všechna budoucí vylepšení OCR pro čtení jsou součástí dvou dříve uvedených služeb. Ve službě Azure AI Vision verze 3.2 nejsou žádné další aktualizace. Další informace najdete v tématu Volání rozhraní AZURE AI Vision 3.2 GA Read API a rychlého startu: Azure AI Vision v3.2 GA Read.

Inteligentní zpracování dokumentů (IDP) využívá technologii OCR jako svou základní technologii k extrahování struktury, vztahů, hodnot klíčů, entit a dalších přehledů orientovaných na dokument s pokročilou službou AI založenou na strojovém učení, jako je Document Intelligence. Funkce Document Intelligence zahrnuje verzi funkce Read optimalizovanou pro čtení jako svůj modul OCR a delegování na jiné modely pro přehledy vyšší úrovně. Pokud extrahujete text z naskenovaných a digitálních dokumentů, použijte funkci Document Intelligence Read OCR.

Jak používat OCR

Vyzkoušejte OCR pomocí nástroje Vision Studio. Pak postupujte podle jednoho z odkazů na edici Read, která nejlépe vyhovuje vašim požadavkům.

Vyzkoušet Vision Studio

Snímek obrazovky: Přečtěte si ukázku OCR v nástroji Vision Studio.

Podporované jazyky OCR

Obě verze pro čtení dostupné dnes v Azure AI Vision podporují několik jazyků pro tištěný a ručně psaný text. OCR pro tištěný text obsahuje podporu pro angličtinu, francouzštinu, němčinu, italštinu, portugalštinu, španělštinu, čínštinu, japonštinu, korejštinu, ruštinu, arabštinu, hindštinu a další mezinárodní jazyky, které používají latinku, cyrilici, arabštinu a devanagarštinu. OCR pro rukou psaný text obsahuje podporu pro angličtinu, zjednodušenou čínštinu, francouzštinu, němčinu, italštinu, japonštinu, korejštinu, portugalštinu a španělštinu.

Projděte si úplný seznam jazyků podporovaných službou OCR.

Běžné funkce OCR

Model Read OCR je k dispozici ve službě Azure AI Vision a Document Intelligence s běžnými základními možnostmi při optimalizaci pro příslušné scénáře. Následující seznam shrnuje běžné funkce:

Extrakce tištěného a rukou psaného textu v podporovaných jazycích
Stránky, textové řádky a slova s umístěním a skóre spolehlivosti
Podpora smíšených jazyků, smíšeného režimu (tisk a rukopis)
K dispozici jako kontejner Dockeru bez distribuce pro místní nasazení

Použití cloudových rozhraní API pro OCR nebo nasazení v místním prostředí

Cloudová rozhraní API jsou upřednostňovanou možností pro většinu zákazníků kvůli snadné integraci a rychlé produktivitě. Azure a služba Azure AI Vision zpracovávají potřeby škálování, výkonu, zabezpečení dat a dodržování předpisů, zatímco se zaměřujete na splnění potřeb zákazníků.

V případě místního nasazení umožňuje kontejner Read Dockeru nasadit obecně dostupné funkce OCR azure AI Vision v3.2 ve vašem místním prostředí. Kontejnery jsou skvělé pro splnění určitých požadavků na zabezpečení a zásady správného řízení dat.

Požadavky na vstup

Rozhraní API pro čtení přebírá obrázky a dokumenty jako svůj vstup. Obrázky a dokumenty musí splňovat následující požadavky:

Podporované formáty souborů jsou JPEG, PNG, BMP, PDF a TIFF.
U souborů PDF a TIFF se zpracovává maximálně 2000 stránek (bezplatná úroveň zpracovává jen první dvě stránky).
Velikost souboru obrázků musí být menší než 500 MB (4 MB pro bezplatnou úroveň) s rozměry nejméně 50 × 50 pixelů a maximálně 10 000 × 10 000 pixelů. Soubory PDF nemají žádný limit velikosti.
Minimální výška textu, který se má extrahovat, je 12 pixelů pro obrázek 1024 x 768, který odpovídá přibližně 8bodovému písmu při 150 DPI.

Poznámka:

Nemusíte oříznout obrázek pro textové řádky. Odešle celý obrázek do rozhraní API pro čtení a rozpozná všechny texty.

Ochrana osobních údajů a zabezpečení dat OCR

Stejně jako u všech služeb Azure AI by vývojáři, kteří používají službu Azure AI Vision, měli vědět o zásadách Microsoftu ohledně zákaznických dat. Další informace najdete na stránce služeb Azure AI v Centru zabezpečení Microsoftu.

Další kroky

OCR pro obecné obrázky (bez dokumentu): Vyzkoušejte rychlý start k rozhraní REST API pro analýzu obrázků Ve verzi Preview služby Azure AI Vision 4.0.
OCR pro dokumenty PDF, Dokumenty Office a HTML a obrázky dokumentů: začněte funkcí Document Intelligence Read.
Hledáte předchozí verzi GA? Projděte si rychlá zprovoznění sady Azure AI Vision 3.2 GA SDK nebo rozhraní REST API.

Sdílet prostřednictvím

OCR – optické rozpoznávání znaků

Modul OCR

Edice OCR (Read)

Jak používat OCR

Podporované jazyky OCR

Běžné funkce OCR

Použití cloudových rozhraní API pro OCR nebo nasazení v místním prostředí

Požadavky na vstup

Ochrana osobních údajů a zabezpečení dat OCR

Další kroky

Váš názor

Další materiály

Sdílet prostřednictvím

OCR – optické rozpoznávání znaků

Modul OCR

Edice OCR (Read)

Jak souvisí technologie OCR s inteligentním zpracováním dokumentů (IDP)?

Jak používat OCR

Podporované jazyky OCR

Běžné funkce OCR

Použití cloudových rozhraní API pro OCR nebo nasazení v místním prostředí

Požadavky na vstup

Ochrana osobních údajů a zabezpečení dat OCR

Další kroky

Váš názor

Další materiály