OCR — optyczne rozpoznawanie znaków

Artykuł
02/14/2024

Rozpoznawanie znaków OCR lub optyczne jest również określane jako rozpoznawanie tekstu lub wyodrębnianie tekstu. Techniki OCR oparte na uczeniu maszynowym umożliwiają wyodrębnianie tekstu drukowanego lub odręcznego z obrazów, takich jak plakaty, znaki uliczne i etykiety produktów, a także dokumenty, takie jak artykuły, raporty, formularze i faktury. Tekst jest zwykle wyodrębniany jako wyrazy, wiersze tekstu i akapity lub bloki tekstowe, co umożliwia dostęp do wersji cyfrowej zeskanowanego tekstu. Eliminuje to lub znacznie zmniejsza potrzebę ręcznego wprowadzania danych.

Inteligentne przetwarzanie dokumentów (IDP) używa protokołu OCR jako podstawowej technologii, aby dodatkowo wyodrębnić strukturę, relacje, kluczowe wartości, jednostki i inne szczegółowe informacje skoncentrowane na dokumentach za pomocą zaawansowanej usługi sztucznej inteligencji opartej na uczeniu maszynowym, takiej jak Analiza dokumentów. Analiza dokumentów zawiera zoptymalizowaną pod kątem dokumentów wersję funkcji Read jako aparat OCR podczas delegowania do innych modeli w celu uzyskania szczegółowych informacji o wyższej analizie. Jeśli wyodrębniasz tekst ze zeskanowanych i cyfrowych dokumentów, użyj funkcji OCR odczytu analizy dokumentów.

Aparat OCR

Aparat OCR do odczytu firmy Microsoft składa się z wielu zaawansowanych modeli opartych na uczeniu maszynowym obsługujących języki globalne. Może wyodrębniać tekst drukowany i odręczny, w tym języki mieszane i style pisania. Odczyt jest dostępny jako usługa w chmurze i kontener lokalny w celu zapewnienia elastyczności wdrożenia. Najnowsza wersja zapoznawcza jest również dostępna jako synchroniczny interfejs API dla pojedynczych scenariuszy niezwiązanych z dokumentami z ulepszeniami wydajności, które ułatwiają implementowanie środowisk użytkowników wspomaganych przez funkcję OCR.

Ostrzeżenie

Starsze interfejsy API OCR usługi Azure AI Vision w wersji 3.2 i interfejsu API RecognizeText w wersji 2.1 nie są zalecane do użycia.

Wersje OCR (odczyt)

Ważne

Wybierz wersję Do odczytu, która najlepiej odpowiada Twoim wymaganiom.

Dane wejściowe	Przykłady	Edycja do odczytu	Korzyści
Obrazy: Ogólne, obrazy w środowisku dzikim	etykiety, znaki uliczne i plakaty	OCR dla obrazów (wersja 4.0)	Zoptymalizowany pod kątem ogólnych obrazów innych niż dokument z ulepszonym synchronicznym interfejsem API o wydajności, który ułatwia osadzanie OCR w scenariuszach środowiska użytkownika.
Dokumenty: cyfrowe i zeskanowane, w tym obrazy	książki, artykuły i raporty	Model odczytu analizy dokumentów	Zoptymalizowany pod kątem dokumentów skanowanych z dużą liczbą tekstu i dokumentów cyfrowych za pomocą asynchronicznego interfejsu API w celu zautomatyzowania inteligentnego przetwarzania dokumentów na dużą skalę.

Informacje o usłudze Azure AI Vision w wersji 3.2 (ogólna dostępność) — odczyt

Szukasz najnowszej wersji ogólnie dostępnej usługi Azure AI Vision w wersji 3.2? Wszystkie przyszłe ulepszenia OCR odczytu są częścią dwóch wymienionych wcześniej usług. Nie ma dalszych aktualizacji usługi Azure AI Vision w wersji 3.2. Aby uzyskać więcej informacji, zobacz Call the Azure AI Vision 3.2 GA Read API and Quickstart: Azure AI Vision v3.2 GA Read (Wywoływanie interfejsu API odczytu ogólnie dostępnego usługi Azure AI Vision 3.2).

Jak używać OCR

Wypróbuj usługę OCR przy użyciu programu Vision Studio. Następnie postępuj zgodnie z jednym z linków do wersji Read, które najlepiej spełniają Twoje wymagania.

Wypróbuj program Vision Studio

Screenshot: Read OCR demo in Vision Studio.

Obsługiwane języki OCR

Obie wersje odczytu dostępne obecnie w usłudze Azure AI Vision obsługują kilka języków dla tekstu drukowanego i odręcznego. Funkcja OCR dla tekstu drukowanego obejmuje obsługę języków angielskich, francuskich, niemieckich, włoskich, portugalskich, hiszpańskich, chińskich, japońskich, koreańskich, rosyjskich, arabskich, arabskich oraz innych językach międzynarodowych. Funkcja OCR dla tekstu odręcznego obejmuje obsługę języków angielskich, chińskich uproszczonych, francuskich, niemieckich, włoskich, japońskich, koreańskich, portugalskich i hiszpańskich.

Zapoznaj się z pełną listą języków obsługiwanych przez funkcję OCR.

Typowe funkcje OCR

Model odczytu OCR jest dostępny w usłudze Azure AI Vision i Document Intelligence z typowymi możliwościami punktu odniesienia podczas optymalizowania pod kątem odpowiednich scenariuszy. Poniższa lista zawiera podsumowanie typowych funkcji:

Wyodrębnianie tekstu drukowanego i odręcznego w obsługiwanych językach
Strony, wiersze tekstu i wyrazy z wartościami lokalizacji i ufności
Obsługa języków mieszanych, trybu mieszanego (drukowanie i odręczne)
Dostępny jako kontener platformy Docker bez dystrybucji na potrzeby wdrożenia lokalnego

Korzystanie z interfejsów API chmury OCR lub wdrażanie lokalnego

Interfejsy API w chmurze są preferowaną opcją dla większości klientów ze względu na łatwość integracji i szybką produktywność. Platforma Azure i usługa Azure AI Vision obsługują potrzeby dotyczące skalowania, wydajności, zabezpieczeń danych i zgodności, jednocześnie koncentrując się na zaspokajaniu potrzeb klientów.

W przypadku wdrożenia lokalnego kontener Read Docker umożliwia wdrożenie ogólnie dostępnych funkcji OCR usługi Azure AI Vision w wersji 3.2 we własnym środowisku lokalnym. Kontenery doskonale nadają się do określonych wymagań w zakresie zabezpieczeń i zarządzania danymi.

Prywatność i zabezpieczenia danych OCR

Podobnie jak we wszystkich usługach azure AI, deweloperzy korzystający z usługi Azure AI Vision powinni mieć świadomość zasad firmy Microsoft dotyczących danych klientów. Aby dowiedzieć się więcej, zobacz stronę usługi Azure AI w Centrum zaufania firmy Microsoft.

Następne kroki

Funkcja OCR dla obrazów ogólnych (innych niż dokument): wypróbuj przewodnik Szybki start dotyczący interfejsu API REST analizy obrazów usługi Azure AI Vision 4.0 w wersji zapoznawczej.
OCR dla dokumentów PDF, office i HTML oraz obrazów dokumentów: zacznij od odczytu analizy dokumentów.
Szukasz poprzedniej wersji ogólnie dostępnej? Zapoznaj się z przewodnikami Szybki start dla zestawu SDK ogólnie dostępnej usługi Azure AI Vision 3.2 lub interfejsu API REST.