OCR — optyczne rozpoznawanie znaków
OCR lub optyczne rozpoznawanie znaków jest również określane jako rozpoznawanie tekstu lub wyodrębnianie tekstu. Techniki OCR oparte na uczeniu maszynowym umożliwiają wyodrębnianie tekstu drukowanego lub odręcznego z obrazów, takich jak plakaty, znaki uliczne i etykiety produktów, a także dokumentów, takich jak artykuły, raporty, formularze i faktury. Tekst jest zwykle wyodrębniany jako wyrazy, wiersze tekstu i akapity lub bloki tekstowe, co umożliwia dostęp do wersji cyfrowej zeskanowanego tekstu. Eliminuje to lub znacznie zmniejsza potrzebę ręcznego wprowadzania danych.
Aparat OCR
Aparat OCR do odczytu firmy Microsoft składa się z wielu zaawansowanych modeli opartych na uczeniu maszynowym obsługujących języki globalne. Może wyodrębniać tekst drukowany i odręczny, w tym języki mieszane i style pisania. Odczyt jest dostępny jako usługa w chmurze i kontener lokalny w celu zapewnienia elastyczności wdrożenia. Jest on również dostępny jako synchroniczny interfejs API dla pojedynczych scenariuszy niezwiązanych z dokumentami z ulepszeniami wydajności, które ułatwiają implementowanie środowisk użytkownika wspomaganych przez funkcję OCR.
Ostrzeżenie
Starsze interfejsy API OCR usługi Azure AI Vision w wersji 3.2 i interfejsu API RecognizeText w wersji 2.1 nie są zalecane do użycia.
Wersje OCR (odczyt)
Ważne
Wybierz wersję Do odczytu, która najlepiej odpowiada Twoim wymaganiom.
Dane wejściowe | Przykłady | Edycja do odczytu | Korzyści |
---|---|---|---|
Obrazy: Ogólne, obrazy w środowisku dzikim | etykiety, znaki uliczne i plakaty | OCR dla obrazów (wersja 4.0) | Zoptymalizowany pod kątem ogólnych obrazów innych niż dokument z ulepszonym synchronicznym interfejsem API o wydajności, który ułatwia osadzanie OCR w scenariuszach środowiska użytkownika. |
Dokumenty: cyfrowe i zeskanowane, w tym obrazy | książki, artykuły i raporty | Model odczytu analizy dokumentów | Zoptymalizowany pod kątem dokumentów skanowanych z dużą liczbą tekstu i dokumentów cyfrowych za pomocą asynchronicznego interfejsu API w celu zautomatyzowania inteligentnego przetwarzania dokumentów na dużą skalę. |
Informacje o usłudze Azure AI Vision w wersji 3.2 (ogólna dostępność) — odczyt
Szukasz najnowszej wersji ogólnie dostępnej usługi Azure AI Vision w wersji 3.2? Wszystkie przyszłe ulepszenia OCR odczytu są częścią dwóch wymienionych wcześniej usług. Nie ma dalszych aktualizacji usługi Azure AI Vision w wersji 3.2. Aby uzyskać więcej informacji, zobacz Call the Azure AI Vision 3.2 GA Read API and Quickstart: Azure AI Vision v3.2 GA Read (Wywoływanie interfejsu API odczytu ogólnie dostępnego usługi Azure AI Vision 3.2).
W jaki sposób funkcja OCR jest powiązana z inteligentnym przetwarzaniem dokumentów (IDP)?
Inteligentne przetwarzanie dokumentów (IDP) używa protokołu OCR jako podstawowej technologii, aby dodatkowo wyodrębnić strukturę, relacje, kluczowe wartości, jednostki i inne szczegółowe informacje skoncentrowane na dokumentach za pomocą zaawansowanej usługi sztucznej inteligencji opartej na uczeniu maszynowym, takiej jak Analiza dokumentów. Analiza dokumentów zawiera zoptymalizowaną pod kątem dokumentów wersję funkcji Read jako aparat OCR podczas delegowania do innych modeli w celu uzyskania szczegółowych informacji o wyższej analizie. Jeśli wyodrębniasz tekst ze zeskanowanych i cyfrowych dokumentów, użyj funkcji OCR odczytu analizy dokumentów.
Jak używać OCR
Wypróbuj usługę OCR przy użyciu programu Vision Studio. Następnie postępuj zgodnie z jednym z linków do wersji Read, które najlepiej spełniają Twoje wymagania.
Obsługiwane języki OCR
Obie wersje odczytu dostępne obecnie w usłudze Azure AI Vision obsługują kilka języków dla tekstu drukowanego i odręcznego. Funkcja OCR dla tekstu drukowanego obejmuje obsługę języków angielskich, francuskich, niemieckich, włoskich, portugalskich, hiszpańskich, chińskich, japońskich, koreańskich, rosyjskich, arabskich, arabskich oraz innych językach międzynarodowych. Funkcja OCR dla tekstu odręcznego obejmuje obsługę języków angielskich, chińskich uproszczonych, francuskich, niemieckich, włoskich, japońskich, koreańskich, portugalskich i hiszpańskich.
Zapoznaj się z pełną listą języków obsługiwanych przez funkcję OCR.
Typowe funkcje OCR
Model odczytu OCR jest dostępny w usłudze Azure AI Vision i Document Intelligence z typowymi możliwościami punktu odniesienia podczas optymalizowania pod kątem odpowiednich scenariuszy. Poniższa lista zawiera podsumowanie typowych funkcji:
- Wyodrębnianie tekstu drukowanego i odręcznego w obsługiwanych językach
- Strony, wiersze tekstu i wyrazy z wartościami lokalizacji i ufności
- Obsługa języków mieszanych, trybu mieszanego (drukowanie i odręczne)
- Dostępny jako kontener platformy Docker bez dystrybucji na potrzeby wdrożenia lokalnego
Korzystanie z interfejsów API chmury OCR lub wdrażanie lokalnego
Interfejsy API w chmurze są preferowaną opcją dla większości klientów ze względu na łatwość integracji i szybką produktywność. Platforma Azure i usługa Azure AI Vision obsługują potrzeby dotyczące skalowania, wydajności, zabezpieczeń danych i zgodności, jednocześnie koncentrując się na zaspokajaniu potrzeb klientów.
W przypadku wdrożenia lokalnego kontener Read Docker umożliwia wdrożenie ogólnie dostępnych funkcji OCR usługi Azure AI Vision w wersji 3.2 we własnym środowisku lokalnym. Kontenery doskonale nadają się do określonych wymagań w zakresie zabezpieczeń i zarządzania danymi.
Wymagania dotyczące danych wejściowych
Interfejs API odczytu pobiera obrazy i dokumenty jako dane wejściowe. Obrazy i dokumenty muszą spełniać następujące wymagania:
- Obsługiwane formaty plików to JPEG, PNG, BMP, PDF i TIFF.
- W przypadku plików PDF i TIFF przetwarzanych jest maksymalnie 2000 stron (tylko pierwsze dwie strony w przypadku warstwy Bezpłatna).
- Rozmiar pliku obrazów musi być mniejszy niż 500 MB (4 MB dla warstwy Bezpłatna) o wymiarach co najmniej 50 x 50 pikseli i maksymalnie 10 000 x 10 000 pikseli. Pliki PDF nie mają limitu rozmiaru.
- Minimalna wysokość tekstu do wyodrębnienia to 12 pikseli dla obrazu 1024 x 768, który odpowiada około 8-punktowego tekstu czcionki na 150 DPI.
Uwaga
Nie musisz przycinać obrazu dla wierszy tekstu. Wyślij cały obraz do interfejsu API odczytu i rozpoznaje wszystkie teksty.
Prywatność i zabezpieczenia danych OCR
Podobnie jak we wszystkich usługach azure AI, deweloperzy korzystający z usługi Azure AI Vision powinni mieć świadomość zasad firmy Microsoft dotyczących danych klientów. Aby dowiedzieć się więcej, zobacz stronę usługi Azure AI w Centrum zaufania firmy Microsoft.
Następne kroki
- Funkcja OCR dla obrazów ogólnych (innych niż dokument): wypróbuj przewodnik Szybki start dotyczący interfejsu API REST analizy obrazów usługi Azure AI Vision 4.0 w wersji zapoznawczej.
- OCR dla dokumentów PDF, office i HTML oraz obrazów dokumentów: zacznij od odczytu analizy dokumentów.
- Szukasz poprzedniej wersji ogólnie dostępnej? Zapoznaj się z przewodnikami Szybki start dla zestawu SDK ogólnie dostępnej usługi Azure AI Vision 3.2 lub interfejsu API REST.