Wywołaj interfejs API odczytu usługi Azure AI Vision w wersji 3.2 (ogólna dostępność)

2025-04-04

W tym przewodniku przedstawiono sposób wywoływania interfejsu API Read (GA) w wersji 3.2 w celu wyodrębnienia tekstu z obrazów. Poznasz różne sposoby konfigurowania zachowania tego interfejsu API w celu spełnienia Twoich potrzeb.

W poniższych krokach założono, że utworzono już zasób Computer Vision i uzyskano klucz oraz adres URL punktu końcowego. Jeśli jeszcze tego nie zrobisz, zapoznaj się z przewodnikiem Szybki start , aby rozpocząć pracę.

Wersje OCR (odczyt)

Ważne

Wybierz edycję do czytania, która najlepiej odpowiada Twoim wymaganiom.

Dane wejściowe	Przykłady	Wydanie do odczytu	Korzyści
Zdjęcia: Ogólne, zdjęcia na wolności	etykiety, znaki uliczne i plakaty	OCR dla obrazów (wersja 4.0)	Zoptymalizowany do obsługi ogólnych obrazów niebędących dokumentami, z udoskonalonym synchronicznym interfejsem API, co ułatwia integrację OCR w scenariuszach doświadczeń użytkownika.
Dokumenty: cyfrowe i zeskanowane, w tym obrazy	książki, artykuły i raporty	Model odczytu Inteligencji Dokumentów	Zoptymalizowany pod kątem dokumentów skanowanych z dużą liczbą tekstu i dokumentów cyfrowych za pomocą asynchronicznego interfejsu API w celu zautomatyzowania inteligentnego przetwarzania dokumentów na dużą skalę.

Informacje o usłudze Azure AI Vision w wersji 3.2 GA — odczyt

Szukasz najnowszej wersji ogólnie dostępnej usługi Azure AI Vision w wersji 3.2? Wszystkie przyszłe ulepszenia odczytywania OCR są częścią dwóch wymienionych wcześniej usług. Nie ma dalszych aktualizacji usługi Azure AI Vision w wersji 3.2. Aby uzyskać więcej informacji, zobacz Wywoływanie interfejsu API odczytu Azure AI Vision 3.2 GA oraz Szybki start: Azure AI Vision v3.2 GA Read.

Określanie sposobu przetwarzania danych (opcjonalnie)

Określanie modelu OCR

Domyślnie usługa używa najnowszego modelu ogólnie dostępnego (GA) do wyodrębniania tekstu. Począwszy od Read w wersji 3.2, parametr model-version umożliwia wybór między modelami GA a modelami zapoznawczymi dla danej wersji interfejsu API. Model, który określisz, jest używany do wyodrębniania tekstu w ramach operacji Odczyt.

W przypadku korzystania z operacji Odczyt użyj następujących wartości dla opcjonalnego model-version parametru.

Wartość	Używany model
Nie podano	Najnowszy model GA
Najnowsze	Najnowszy model GA
2022-04-30	Najnowszy model GA. 164 języki do drukowania tekstu i 9 języków tekstu odręcznego wraz z kilkoma ulepszeniami jakości i wydajności
2022-01-30	Dodaje obsługę tekstu drukowanego dla języków hindi, arabskich i pokrewnych. W przypadku tekstu odręcznego dodano obsługę języka japońskiego i koreańskiego.
2021-09-30	Dodaje obsługę znaków drukarskich dla języka rosyjskiego i innych języków używających cyrylicy. W przypadku tekstu odręcznego dodano obsługę języka chińskiego (uproszczonego), francuskiego, niemieckiego, włoskiego, portugalskiego i hiszpańskiego.
2021-04-12	Model ogólnie dostępnej wersji 2021

Język wprowadzania

Domyślnie usługa wyodrębnia cały tekst z obrazów lub dokumentów, w tym języki mieszane. Operacja odczytu ma opcjonalny parametr żądania dla języka. Podaj tylko kod języka, jeśli chcesz wymusić przetworzenie dokumentu jako tego konkretnego języka. W przeciwnym razie usługa może zwrócić niekompletny i niepoprawny tekst.

Dane wyjściowe naturalnej kolejności czytania (tylko języki łacińskie)

Domyślnie usługa generuje wiersze tekstu w kolejności od lewej do prawej. Opcjonalnie, przy użyciu parametru readingOrder żądania, użyj natural w poniższym przykładzie w celu uzyskania bardziej przyjaznego człowiekowi wyjściowego układu kolejności do odczytu. Ta funkcja jest obsługiwana tylko w językach łacińskich.

Zrzut ekranu przedstawiający przykład kolejności odczytywania OCR.

Wybieranie stron lub zakresów stron na potrzeby wyodrębniania tekstu

Domyślnie usługa wyodrębnia tekst ze wszystkich stron w dokumentach. Opcjonalnie użyj parametru pages żądania, aby określić numery stron lub zakresy stron w celu wyodrębnienia tekstu tylko z tych stron. Poniższy przykład przedstawia dokument z 10 stronami z tekstem wyodrębnionym w obu przypadkach: Wszystkie strony (1–10) i Wybrane strony (3–6).

Zrzut ekranu przedstawiający dane wyjściowe ze wszystkich stron i z wybranych stron.

Przesyłanie danych do usługi

Przesyłasz obraz lokalny lub obraz zdalny do interfejsu API odczytu. W przypadku środowiska lokalnego dane obrazu binarnego są umieszczane w treści żądania HTTP. W przypadku zdalnego określ adres URL obrazu, formatując treść żądania, jak w poniższym przykładzie.

{"url":"http://example.com/images/test.jpg"}

Interfejs API Odczytu, za pomocą wywołania Read, przyjmuje jako dane wejściowe obraz lub dokument PDF i asynchronicznie wyodrębnia tekst.

https://{endpoint}/vision/v3.2/read/analyze[?language][&pages][&readingOrder]

Wywołanie zwraca wartość z polem nagłówka odpowiedzi o nazwie Operation-Location. Wartość Operation-Location jest adresem URL zawierającym identyfikator operacji, który ma być używany w następnym kroku.

Nagłówek odpowiedzi	Przykładowa wartość
Lokalizacja operacji	`https://cognitiveservice/vision/v3.2/read/analyzeResults/d3d3d3d3-eeee-ffff-aaaa-b4b4b4b4b4b4`

Uwaga

Rozliczenia

Strona cennika usługi Azure AI Vision zawiera warstwę cenową dla operacji odczytu. Każdy przeanalizowany obraz lub strona to jedna transakcja. Jeśli wywołasz operację z dokumentem PDF lub TIFF zawierającym 100 stron, operacja Odczyt zliczy ją jako 100 transakcji i zostanie naliczona opłata za 100 transakcji. Jeśli wykonano 50 wywołań operacji, a każde wywołanie przesłało dokument ze 100 stronami, będziesz obciążony opłatą za 50 X 100 = 5000 transakcji.

Pobieranie wyników z usługi

Drugim krokiem jest wywołanie operacji Pobierz wynik. Ta operacja przyjmuje jako dane wejściowe identyfikator operacji utworzonej przez operację Odczyt.

https://{endpoint}/vision/v3.2/read/analyzeResults/{operationId}

Zwraca odpowiedź JSON zawierającą pole stanu z następującymi możliwymi wartościami.

Wartość	Znaczenie
`notStarted`	Operacja nie została uruchomiona.
`running`	Operacja jest przetwarzana.
`failed`	Operacja nie powiodła się.
`succeeded`	Operacja zakończyła się pomyślnie.

Wywołujesz tę operację iteracyjnie, aż zwróci wartość succeeded. Użyj interwału od 1 do 2 sekund, aby uniknąć przekroczenia liczby żądań na sekundę (RPS).

Uwaga

Warstwa Bezpłatna ogranicza szybkość żądań do 20 wywołań na minutę. Płatna warstwa umożliwia 30 RPS, co można zwiększyć na życzenie. Zanotuj identyfikator zasobu platformy Azure i region, a następnie otwórz bilet pomocy technicznej platformy Azure lub skontaktuj się z zespołem ds. kont, aby poprosić o wyższą stawkę RPS (zapytania na sekundę).

Kiedy pole statusu ma succeeded wartość, odpowiedź JSON zawiera wyodrębnioną zawartość tekstową z obrazu lub dokumentu. Odpowiedź JSON utrzymuje oryginalne grupowania wierszy rozpoznanych wyrazów. Zawiera on wyodrębnione wiersze tekstu i ich współrzędne pola ograniczenia. Każdy wiersz tekstu zawiera wszystkie wyodrębnione wyrazy ze współrzędnymi i współczynnikami ufności.

Uwaga

Dane przesyłane do operacji odczytu są tymczasowo szyfrowane i przechowywane w spoczynku przez krótki czas, a następnie usuwane. Dzięki temu aplikacje mogą pobierać wyodrębniony tekst w ramach odpowiedzi usługi.

Przykładowe dane wyjściowe JSON

Zobacz następujący przykład pomyślnej odpowiedzi JSON:

{
  "status": "succeeded",
  "createdDateTime": "2021-02-04T06:32:08.2752706+00:00",
  "lastUpdatedDateTime": "2021-02-04T06:32:08.7706172+00:00",
  "analyzeResult": {
    "version": "3.2",
    "readResults": [
      {
        "page": 1,
        "angle": 2.1243,
        "width": 502,
        "height": 252,
        "unit": "pixel",
        "lines": [
          {
            "boundingBox": [
              58,
              42,
              314,
              59,
              311,
              123,
              56,
              121
            ],
            "text": "Tabs vs",
            "appearance": {
              "style": {
                "name": "handwriting",
                "confidence": 0.96
              }
            },
            "words": [
              {
                "boundingBox": [
                  68,
                  44,
                  225,
                  59,
                  224,
                  122,
                  66,
                  123
                ],
                "text": "Tabs",
                "confidence": 0.933
              },
              {
                "boundingBox": [
                  241,
                  61,
                  314,
                  72,
                  314,
                  123,
                  239,
                  122
                ],
                "text": "vs",
                "confidence": 0.977
              }
            ]
          }
        ]
      }
    ]
  }
}

Klasyfikacja odręczna dla wierszy tekstu (tylko języki łacińskie)

Odpowiedź zawiera klasyfikację tego, czy każdy wiersz tekstu jest w stylu odręcznym, czy nie, wraz z oceną ufności. Ta funkcja jest dostępna tylko w językach łacińskich. Poniższy przykład przedstawia klasyfikację odręczną tekstu na obrazie.

Zrzut ekranu przedstawiający przykład klasyfikacji pisma ręcznego OCR.

Udostępnij za pośrednictwem

Wywołaj interfejs API odczytu usługi Azure AI Vision w wersji 3.2 (ogólna dostępność)

Wersje OCR (odczyt)

Określanie sposobu przetwarzania danych (opcjonalnie)

Określanie modelu OCR

Język wprowadzania

Dane wyjściowe naturalnej kolejności czytania (tylko języki łacińskie)

Wybieranie stron lub zakresów stron na potrzeby wyodrębniania tekstu

Przesyłanie danych do usługi

Pobieranie wyników z usługi

Przykładowe dane wyjściowe JSON

Klasyfikacja odręczna dla wierszy tekstu (tylko języki łacińskie)

Powiązana zawartość

Opinia

Dodatkowe zasoby