Recognize Printed Text - Recognize Printed Text

Optyczne rozpoznawanie znaków (OCR) wykrywa tekst na obrazie i wyodrębnia rozpoznane znaki do strumienia znaków nadającego się do użycia maszynowo. Po pomyślnym zwróceniu wyników OCR. Po awarii zostanie zwrócony kod błędu wraz z komunikatem o błędzie. Kod błędu może być jednym z invalidImageUrl, InvalidImageFormat, InvalidImageSize, NotSupportedImage, NotSupportedLanguage lub InternalServerError.

POST {Endpoint}/vision/v3.1/ocr?detectOrientation={detectOrientation}
POST {Endpoint}/vision/v3.1/ocr?detectOrientation={detectOrientation}&language={language}

Parametry identyfikatora URI

Nazwa W Wymagane Typ Opis
Endpoint
path True

string

Obsługiwane punkty końcowe usług Cognitive Services.

detectOrientation
query True

boolean

Określa, czy na obrazie wykryto orientację tekstu. Za pomocą funkcji detectOrientation=true usługa OCR próbuje wykryć orientację obrazu i poprawić ją przed dalszym przetwarzaniem (np. jeśli jest do góry nogami).

language
query

OcrLanguages

Kod języka BCP-47 tekstu, który ma zostać wykryty na obrazie. Wartość domyślna to "unk".

Nagłówek żądania

Nazwa Wymagane Typ Opis
Ocp-Apim-Subscription-Key True

string

Treść żądania

Nazwa Wymagane Typ Opis
url True

string

Publicznie dostępny adres URL obrazu.

Odpowiedzi

Nazwa Typ Opis
200 OK

OcrResult

Funkcja OCR powoduje hierarchię regionu/wiersza/wyrazu. Wyniki obejmują tekst, pole ograniczenia dla regionów, wierszy i wyrazów. Kąt, w radianach, wykrytego tekstu w odniesieniu do najbliższego kierunku poziomego lub pionowego. Po obracaniu obrazu wejściowego zgodnie z ruchem wskazówek zegara, rozpoznane linie tekstowe stają się poziome lub pionowe. W połączeniu z właściwością orientacji może służyć do poprawnego nakładania wyników rozpoznawania na oryginalnym obrazie, obracając oryginalny obraz lub wyniki rozpoznawania według odpowiedniego kąta wokół środka oryginalnego obrazu. Jeśli nie można bezpiecznie wykryć kąta, ta właściwość nie jest obecna. Jeśli obraz zawiera tekst pod różnymi kątami, tylko część tekstu zostanie rozpoznana poprawnie.

Other Status Codes

ComputerVisionError

Odpowiedź na błąd.

Zabezpieczenia

Ocp-Apim-Subscription-Key

Type: apiKey
In: header

Przykłady

Successful RecognizePrintedText request

Sample Request

POST https://westus.api.cognitive.microsoft.com/vision/v3.1/ocr?detectOrientation=true&language=en


{
  "url": "{url}"
}

Sample Response

{
  "language": "en",
  "textAngle": -2.0000000000000338,
  "orientation": "Up",
  "regions": [
    {
      "boundingBox": "462,379,497,258",
      "lines": [
        {
          "boundingBox": "462,379,497,74",
          "words": [
            {
              "boundingBox": "462,379,41,73",
              "text": "A"
            },
            {
              "boundingBox": "523,379,153,73",
              "text": "GOAL"
            },
            {
              "boundingBox": "694,379,265,74",
              "text": "WITHOUT"
            }
          ]
        },
        {
          "boundingBox": "565,471,289,74",
          "words": [
            {
              "boundingBox": "565,471,41,73",
              "text": "A"
            },
            {
              "boundingBox": "626,471,150,73",
              "text": "PLAN"
            },
            {
              "boundingBox": "801,472,53,73",
              "text": "IS"
            }
          ]
        },
        {
          "boundingBox": "519,563,375,74",
          "words": [
            {
              "boundingBox": "519,563,149,74",
              "text": "JUST"
            },
            {
              "boundingBox": "683,564,41,72",
              "text": "A"
            },
            {
              "boundingBox": "741,564,153,73",
              "text": "WISH"
            }
          ]
        }
      ]
    }
  ]
}

Definicje

Nazwa Opis
ComputerVisionError

Szczegółowe informacje o błędzie żądania interfejsu API.

ComputerVisionErrorCodes

Kod błędu.

ImageUrl
OcrLanguages

Kod języka BCP-47 tekstu, który ma zostać wykryty na obrazie. Wartość domyślna to "unk".

OcrLine

Obiekt opisujący pojedynczy rozpoznany wiersz tekstu.

OcrRegion

Region składa się z wielu wierszy (np. kolumny tekstu w dokumencie wielokolumniowym).

OcrResult
OcrWord

Informacje o rozpoznanym słowie.

ComputerVisionError

Szczegółowe informacje o błędzie żądania interfejsu API.

Nazwa Typ Opis
code

ComputerVisionErrorCodes

Kod błędu.

message

string

Komunikat wyjaśniający błąd zgłoszony przez usługę.

requestId

string

Unikatowy identyfikator żądania.

ComputerVisionErrorCodes

Kod błędu.

Nazwa Typ Opis
BadArgument

string

CancelledRequest

string

DetectFaceError

string

FailedToProcess

string

InternalServerError

string

InvalidDetails

string

InvalidImageFormat

string

InvalidImageSize

string

InvalidImageUrl

string

InvalidModel

string

InvalidThumbnailSize

string

NotSupportedFeature

string

NotSupportedImage

string

NotSupportedLanguage

string

NotSupportedVisualFeature

string

StorageException

string

Timeout

string

Unspecified

string

UnsupportedMediaType

string

ImageUrl

Nazwa Typ Opis
url

string

Publicznie dostępny adres URL obrazu.

OcrLanguages

Kod języka BCP-47 tekstu, który ma zostać wykryty na obrazie. Wartość domyślna to "unk".

Nazwa Typ Opis
ar

string

cs

string

da

string

de

string

el

string

en

string

es

string

fi

string

fr

string

hu

string

it

string

ja

string

ko

string

nb

string

nl

string

pl

string

pt

string

ro

string

ru

string

sk

string

sr-Cyrl

string

sr-Latn

string

sv

string

tr

string

unk

string

zh-Hans

string

zh-Hant

string

OcrLine

Obiekt opisujący pojedynczy rozpoznany wiersz tekstu.

Nazwa Typ Opis
boundingBox

string

Pole ograniczenia rozpoznanego wiersza. Cztery liczby całkowite reprezentują współrzędną x lewej krawędzi, współrzędną y górnej krawędzi, szerokości i wysokości pola ograniczenia, w układzie współrzędnych obrazu wejściowego, po obróceniu wokół środka zgodnie z wykrytym kątem tekstu (zobacz właściwość textAngle) z początkiem w lewym górnym rogu i osią y skierowaną w dół.

words

OcrWord[]

Tablica obiektów, w której każdy obiekt reprezentuje rozpoznany wyraz.

OcrRegion

Region składa się z wielu wierszy (np. kolumny tekstu w dokumencie wielokolumniowym).

Nazwa Typ Opis
boundingBox

string

Pole ograniczenia rozpoznanego regionu. Cztery liczby całkowite reprezentują współrzędną x lewej krawędzi, współrzędną y górnej krawędzi, szerokości i wysokości pola ograniczenia, w układzie współrzędnych obrazu wejściowego, po obróceniu wokół środka zgodnie z wykrytym kątem tekstu (zobacz właściwość textAngle) z początkiem w lewym górnym rogu i osią y skierowaną w dół.

lines

OcrLine[]

Tablica rozpoznanych wierszy tekstu.

OcrResult

Nazwa Typ Opis
language

string

Kod języka BCP-47 tekstu na obrazie.

orientation

string

Orientacja tekstu rozpoznanego na obrazie, jeśli jest to wymagane. Wartość (w górę, w dół, w lewo lub w prawo) odnosi się do kierunku, w którym znajduje się górna część rozpoznanego tekstu, po obróceniu obrazu wokół środka zgodnie z wykrytym kątem tekstu (zobacz właściwość textAngle). Jeśli nie zażądano wykrycia orientacji lub nie wykryto tekstu, wartość to NotDetected.

regions

OcrRegion[]

Tablica obiektów, w której każdy obiekt reprezentuje region rozpoznanego tekstu.

textAngle

number

Kąt, w radianach, wykrytego tekstu w odniesieniu do najbliższego kierunku poziomego lub pionowego. Po obracaniu obrazu wejściowego zgodnie z ruchem wskazówek zegara, rozpoznane linie tekstowe stają się poziome lub pionowe. W połączeniu z właściwością orientacji może służyć do poprawnego nakładania wyników rozpoznawania na oryginalnym obrazie, obracając oryginalny obraz lub wyniki rozpoznawania według odpowiedniego kąta wokół środka oryginalnego obrazu. Jeśli nie można bezpiecznie wykryć kąta, ta właściwość nie jest obecna. Jeśli obraz zawiera tekst pod różnymi kątami, tylko część tekstu zostanie rozpoznana poprawnie.

OcrWord

Informacje o rozpoznanym słowie.

Nazwa Typ Opis
boundingBox

string

Pole ograniczenia rozpoznanego wyrazu. Cztery liczby całkowite reprezentują współrzędną x lewej krawędzi, współrzędną y górnej krawędzi, szerokości i wysokości pola ograniczenia, w układzie współrzędnych obrazu wejściowego, po obróceniu wokół środka zgodnie z wykrytym kątem tekstu (zobacz właściwość textAngle) z początkiem w lewym górnym rogu i osią y skierowaną w dół.

text

string

Wartość ciągu rozpoznanego wyrazu.