Rozpoczynanie pracy z usługą Azure AI Vision

Ukończone

Możliwość przetwarzania tekstu pisanego i drukowanego przez systemy komputerowe to obszar sztucznej inteligencji, w którym przetwarzanie obrazów odbywa się za pomocą przetwarzania języka naturalnego. Funkcje przetwarzania obrazów są potrzebne do "odczytania" tekstu, a następnie możliwości przetwarzania języka naturalnego mają sens.

OCR jest podstawą przetwarzania tekstu na obrazach i używa modeli uczenia maszynowego, które są trenowane do rozpoznawania poszczególnych kształtów jako liter, cyfr, znaków interpunkcyjnych lub innych elementów tekstu. Większość wczesnych prac nad wdrożeniem tego rodzaju funkcji była prowadzona przez służby pocztowe na potrzeby automatycznego sortowania poczty na podstawie kodów pocztowych. Od tego czasu najnowocześniejsze czytanie tekstu zostało przeniesione i mamy modele, które wykrywają tekst drukowany lub odręczny na obrazie i czytają go wiersz po wierszu i word-by-word.

A screenshot of an envelope showing a handwritten address with typed text next to it.

Aparat OCR usługi Azure AI Vision

Usługa Azure AI Vision umożliwia wyodrębnianie tekstu czytelnego dla maszyny z obrazów. Interfejs API odczytu usługi Azure AI Vision to aparat OCR, który obsługuje wyodrębnianie tekstu z obrazów, plików PDF i TIFF. Funkcja OCR dla obrazów jest zoptymalizowana pod kątem ogólnych obrazów innych niż dokument, które ułatwiają osadzanie OCR w scenariuszach środowiska użytkownika.

Interfejs API odczytu, inaczej znany jako aparat OCR do odczytu, używa najnowszych modeli rozpoznawania i jest zoptymalizowany pod kątem obrazów, które mają znaczną ilość tekstu lub mają znaczne szumy wizualne. Może automatycznie określić odpowiedni model rozpoznawania, który ma być używany, biorąc pod uwagę liczbę wierszy tekstu, obrazów zawierających tekst i pismo ręczne.

Aparat OCR bierze w pliku obrazu i identyfikuje pola ograniczenia lub współrzędne, gdzie elementy znajdują się na obrazie. W usłudze OCR model identyfikuje pola ograniczenia wokół wszystkich elementów, które wydają się być tekstem na obrazie.

Wywołanie interfejsu API odczytu zwraca wyniki uporządkowane w następującej hierarchii:

  • Strony — jedna dla każdej strony tekstu, wraz z informacjami na temat rozmiaru i orientacji strony.
  • Wiersze — wiersze tekstu na stronie.
  • Słowa — wyrazy w wierszu tekstu, w tym współrzędne pola ograniczenia i sam tekst.

Każdy wiersz i słowo zawiera współrzędne pola ograniczenia wskazujące jego pozycję na stronę.

A screenshot showing bounding boxes around the page, line, and word of a letter.