OCR — optyczne rozpoznawanie znaków

Artykuł
10/17/2024

OCR lub optyczne rozpoznawanie znaków jest również określane jako rozpoznawanie tekstu lub wyodrębnianie tekstu. Techniki OCR oparte na uczeniu maszynowym umożliwiają wyodrębnianie tekstu drukowanego lub odręcznego z obrazów, takich jak plakaty, znaki uliczne i etykiety produktów, a także dokumentów, takich jak artykuły, raporty, formularze i faktury. Tekst jest zwykle wyodrębniany jako wyrazy, wiersze tekstu i akapity lub bloki tekstowe, co umożliwia dostęp do wersji cyfrowej zeskanowanego tekstu. Eliminuje to lub znacznie zmniejsza potrzebę ręcznego wprowadzania danych.

Aparat OCR

Aparat OCR do odczytu firmy Microsoft składa się z wielu zaawansowanych modeli opartych na uczeniu maszynowym obsługujących języki globalne. Może wyodrębniać tekst drukowany i odręczny, w tym języki mieszane i style pisania. Odczyt jest dostępny jako usługa w chmurze i kontener lokalny w celu zapewnienia elastyczności wdrożenia. Jest on również dostępny jako synchroniczny interfejs API dla pojedynczych scenariuszy niezwiązanych z dokumentami z ulepszeniami wydajności, które ułatwiają implementowanie środowisk użytkownika wspomaganych przez funkcję OCR.

Ostrzeżenie

Starsze interfejsy API OCR usługi Azure AI Vision w wersji 3.2 i interfejsu API RecognizeText w wersji 2.1 nie są zalecane do użycia.

Wersje OCR (odczyt)

Ważne

Wybierz wersję Do odczytu, która najlepiej odpowiada Twoim wymaganiom.

Dane wejściowe	Przykłady	Edycja do odczytu	Korzyści
Obrazy: Ogólne, obrazy w środowisku dzikim	etykiety, znaki uliczne i plakaty	OCR dla obrazów (wersja 4.0)	Zoptymalizowany pod kątem ogólnych obrazów innych niż dokument z ulepszonym synchronicznym interfejsem API o wydajności, który ułatwia osadzanie OCR w scenariuszach środowiska użytkownika.
Dokumenty: cyfrowe i zeskanowane, w tym obrazy	książki, artykuły i raporty	Model odczytu analizy dokumentów	Zoptymalizowany pod kątem dokumentów skanowanych z dużą liczbą tekstu i dokumentów cyfrowych za pomocą asynchronicznego interfejsu API w celu zautomatyzowania inteligentnego przetwarzania dokumentów na dużą skalę.

Informacje o usłudze Azure AI Vision w wersji 3.2 (ogólna dostępność) — odczyt

Szukasz najnowszej wersji ogólnie dostępnej usługi Azure AI Vision w wersji 3.2? Wszystkie przyszłe ulepszenia OCR odczytu są częścią dwóch wymienionych wcześniej usług. Nie ma dalszych aktualizacji usługi Azure AI Vision w wersji 3.2. Aby uzyskać więcej informacji, zobacz Call the Azure AI Vision 3.2 GA Read API and Quickstart: Azure AI Vision v3.2 GA Read (Wywoływanie interfejsu API odczytu ogólnie dostępnego usługi Azure AI Vision 3.2).

Inteligentne przetwarzanie dokumentów (IDP) używa protokołu OCR jako podstawowej technologii, aby dodatkowo wyodrębnić strukturę, relacje, kluczowe wartości, jednostki i inne szczegółowe informacje skoncentrowane na dokumentach za pomocą zaawansowanej usługi sztucznej inteligencji opartej na uczeniu maszynowym, takiej jak Analiza dokumentów. Analiza dokumentów zawiera zoptymalizowaną pod kątem dokumentów wersję funkcji Read jako aparat OCR podczas delegowania do innych modeli w celu uzyskania szczegółowych informacji o wyższej analizie. Jeśli wyodrębniasz tekst ze zeskanowanych i cyfrowych dokumentów, użyj funkcji OCR odczytu analizy dokumentów.

Jak używać OCR

Wypróbuj usługę OCR przy użyciu programu Vision Studio. Następnie postępuj zgodnie z jednym z linków do wersji Read, które najlepiej spełniają Twoje wymagania.

Wypróbuj program Vision Studio

Zrzut ekranu: Odczytywanie pokazu OCR w programie Vision Studio.

Obsługiwane języki OCR

Obie wersje odczytu dostępne obecnie w usłudze Azure AI Vision obsługują kilka języków dla tekstu drukowanego i odręcznego. Funkcja OCR dla tekstu drukowanego obejmuje obsługę języków angielskich, francuskich, niemieckich, włoskich, portugalskich, hiszpańskich, chińskich, japońskich, koreańskich, rosyjskich, arabskich, arabskich oraz innych językach międzynarodowych. Funkcja OCR dla tekstu odręcznego obejmuje obsługę języków angielskich, chińskich uproszczonych, francuskich, niemieckich, włoskich, japońskich, koreańskich, portugalskich i hiszpańskich.

Zapoznaj się z pełną listą języków obsługiwanych przez funkcję OCR.

Typowe funkcje OCR

Model odczytu OCR jest dostępny w usłudze Azure AI Vision i Document Intelligence z typowymi możliwościami punktu odniesienia podczas optymalizowania pod kątem odpowiednich scenariuszy. Poniższa lista zawiera podsumowanie typowych funkcji:

Wyodrębnianie tekstu drukowanego i odręcznego w obsługiwanych językach
Strony, wiersze tekstu i wyrazy z wartościami lokalizacji i ufności
Obsługa języków mieszanych, trybu mieszanego (drukowanie i odręczne)
Dostępny jako kontener platformy Docker bez dystrybucji na potrzeby wdrożenia lokalnego

Korzystanie z interfejsów API chmury OCR lub wdrażanie lokalnego

Interfejsy API w chmurze są preferowaną opcją dla większości klientów ze względu na łatwość integracji i szybką produktywność. Platforma Azure i usługa Azure AI Vision obsługują potrzeby dotyczące skalowania, wydajności, zabezpieczeń danych i zgodności, jednocześnie koncentrując się na zaspokajaniu potrzeb klientów.

W przypadku wdrożenia lokalnego kontener Read Docker umożliwia wdrożenie ogólnie dostępnych funkcji OCR usługi Azure AI Vision w wersji 3.2 we własnym środowisku lokalnym. Kontenery doskonale nadają się do określonych wymagań w zakresie zabezpieczeń i zarządzania danymi.

Wymagania dotyczące danych wejściowych

Interfejs API odczytu pobiera obrazy i dokumenty jako dane wejściowe. Obrazy i dokumenty muszą spełniać następujące wymagania:

Obsługiwane formaty plików to JPEG, PNG, BMP, PDF i TIFF.
W przypadku plików PDF i TIFF przetwarzanych jest maksymalnie 2000 stron (tylko pierwsze dwie strony w przypadku warstwy Bezpłatna).
Rozmiar pliku obrazów musi być mniejszy niż 500 MB (4 MB dla warstwy Bezpłatna) o wymiarach co najmniej 50 x 50 pikseli i maksymalnie 10 000 x 10 000 pikseli. Pliki PDF nie mają limitu rozmiaru.
Minimalna wysokość tekstu do wyodrębnienia to 12 pikseli dla obrazu 1024 x 768, który odpowiada około 8-punktowego tekstu czcionki na 150 DPI.

Uwaga

Nie musisz przycinać obrazu dla wierszy tekstu. Wyślij cały obraz do interfejsu API odczytu i rozpoznaje wszystkie teksty.

Prywatność i zabezpieczenia danych OCR

Podobnie jak we wszystkich usługach azure AI, deweloperzy korzystający z usługi Azure AI Vision powinni mieć świadomość zasad firmy Microsoft dotyczących danych klientów. Aby dowiedzieć się więcej, zobacz stronę usługi Azure AI w Centrum zaufania firmy Microsoft.

Następne kroki

Funkcja OCR dla obrazów ogólnych (innych niż dokument): wypróbuj przewodnik Szybki start dotyczący interfejsu API REST analizy obrazów usługi Azure AI Vision 4.0 w wersji zapoznawczej.
OCR dla dokumentów PDF, office i HTML oraz obrazów dokumentów: zacznij od odczytu analizy dokumentów.
Szukasz poprzedniej wersji ogólnie dostępnej? Zapoznaj się z przewodnikami Szybki start dla zestawu SDK ogólnie dostępnej usługi Azure AI Vision 3.2 lub interfejsu API REST.

Udostępnij za pośrednictwem

OCR — optyczne rozpoznawanie znaków

Aparat OCR

Wersje OCR (odczyt)

Jak używać OCR

Obsługiwane języki OCR

Typowe funkcje OCR

Korzystanie z interfejsów API chmury OCR lub wdrażanie lokalnego

Wymagania dotyczące danych wejściowych

Prywatność i zabezpieczenia danych OCR

Następne kroki

Opinia

Dodatkowe zasoby

Udostępnij za pośrednictwem

OCR — optyczne rozpoznawanie znaków

Aparat OCR

Wersje OCR (odczyt)

W jaki sposób funkcja OCR jest powiązana z inteligentnym przetwarzaniem dokumentów (IDP)?

Jak używać OCR

Obsługiwane języki OCR

Typowe funkcje OCR

Korzystanie z interfejsów API chmury OCR lub wdrażanie lokalnego

Wymagania dotyczące danych wejściowych

Prywatność i zabezpieczenia danych OCR

Następne kroki

Opinia

Dodatkowe zasoby