Megosztás a következőn keresztül:


Recognize Printed Text - Recognize Printed Text

Az optikai karakterfelismerés (OCR) észleli a képeken lévő szöveget, és a felismert karaktereket egy géppel használható karakterfolyamba nyeri ki. A sikeresség után a rendszer visszaadja az OCR-eredményeket. Hiba esetén a rendszer a hibaüzenettel együtt adja vissza a hibakódot. A hibakód lehet az InvalidImageUrl, InvalidImageFormat, InvalidImageSize, NotSupportedImage, NotSupportedLanguage vagy InternalServerError hibakód.

POST {Endpoint}/vision/v2.1/ocr?detectOrientation={detectOrientation}
POST {Endpoint}/vision/v2.1/ocr?detectOrientation={detectOrientation}&language={language}

URI-paraméterek

Name In Kötelező Típus Description
Endpoint
path True

string

Támogatott Cognitive Services-végpontok.

detectOrientation
query True

boolean

Azt jelzi, hogy észleli-e a szöveg tájolását a képen. A detectOrientation=true értékkel az OCR szolgáltatás megpróbálja észlelni a kép tájolását, és javítani a további feldolgozás előtt (például fejjel lefelé).

language
query

OcrLanguages

A képen észlelendő szöveg BCP-47 nyelvi kódja. Az alapértelmezett érték a "unk".

Kérelem fejléce

Name Kötelező Típus Description
Ocp-Apim-Subscription-Key True

string

Kérelem törzse

Name Kötelező Típus Description
url True

string

Egy kép nyilvánosan elérhető URL-címe.

Válaszok

Name Típus Description
200 OK

OcrResult

Az OCR a régió/sor/szó hierarchiáját eredményezi. Az eredmények közé tartozik a szöveg, a régiók, a vonalak és a szavak határolókerete. Az észlelt szöveg szöge radiánban a legközelebbi vízszintes vagy függőleges irányban. Miután az óramutató járásával megegyező irányban elforgatta a bemeneti képet, a felismert szövegvonalak vízszintessé vagy függőlegessé válnak. A tájolás tulajdonsággal kombinálva a felismerési eredmények megfelelően átfedhetők az eredeti képen, az eredeti kép vagy a felismerés eredményeinek megfelelő szögben az eredeti kép közepe körül elforgatva. Ha a szög nem észlelhető magabiztosan, ez a tulajdonság nem jelenik meg. Ha a kép eltérő szögben tartalmaz szöveget, a rendszer csak a szöveg egy részét ismeri fel megfelelően.

Other Status Codes

ComputerVisionError

Hibaválasz.

Biztonság

Ocp-Apim-Subscription-Key

Type: apiKey
In: header

Példák

Successful RecognizePrintedText request

Sample Request

POST https://westus.api.cognitive.microsoft.com/vision/v2.1/ocr?detectOrientation=true&language=en


"{url}"

Sample Response

{
  "language": "en",
  "textAngle": -2.0000000000000338,
  "orientation": "Up",
  "regions": [
    {
      "boundingBox": "462,379,497,258",
      "lines": [
        {
          "boundingBox": "462,379,497,74",
          "words": [
            {
              "boundingBox": "462,379,41,73",
              "text": "A"
            },
            {
              "boundingBox": "523,379,153,73",
              "text": "GOAL"
            },
            {
              "boundingBox": "694,379,265,74",
              "text": "WITHOUT"
            }
          ]
        },
        {
          "boundingBox": "565,471,289,74",
          "words": [
            {
              "boundingBox": "565,471,41,73",
              "text": "A"
            },
            {
              "boundingBox": "626,471,150,73",
              "text": "PLAN"
            },
            {
              "boundingBox": "801,472,53,73",
              "text": "IS"
            }
          ]
        },
        {
          "boundingBox": "519,563,375,74",
          "words": [
            {
              "boundingBox": "519,563,149,74",
              "text": "JUST"
            },
            {
              "boundingBox": "683,564,41,72",
              "text": "A"
            },
            {
              "boundingBox": "741,564,153,73",
              "text": "WISH"
            }
          ]
        }
      ]
    }
  ]
}

Definíciók

Name Description
ComputerVisionError

Az API-kérelem hibájának részletei.

ComputerVisionErrorCodes

A hibakód.

ImageUrl
OcrLanguages

A képen észlelendő szöveg BCP-47 nyelvi kódja. Az alapértelmezett érték a "unk".

OcrLine

Egyetlen felismert szövegsort leíró objektum.

OcrRegion

A régió több sorból áll (például egy többoszlopos dokumentumban lévő szövegoszlopból).

OcrResult
OcrWord

Egy felismert szóra vonatkozó információk.

ComputerVisionError

Az API-kérelem hibájának részletei.

Name Típus Description
code

ComputerVisionErrorCodes

A hibakód.

message

string

A szolgáltatás által jelentett hibát magyarázó üzenet.

requestId

string

Egyedi kérésazonosító.

ComputerVisionErrorCodes

A hibakód.

Name Típus Description
BadArgument

string

CancelledRequest

string

DetectFaceError

string

FailedToProcess

string

InternalServerError

string

InvalidDetails

string

InvalidImageFormat

string

InvalidImageSize

string

InvalidImageUrl

string

InvalidModel

string

InvalidThumbnailSize

string

NotSupportedFeature

string

NotSupportedImage

string

NotSupportedLanguage

string

NotSupportedVisualFeature

string

StorageException

string

Timeout

string

Unspecified

string

UnsupportedMediaType

string

ImageUrl

Name Típus Description
url

string

Egy kép nyilvánosan elérhető URL-címe.

OcrLanguages

A képen észlelendő szöveg BCP-47 nyelvi kódja. Az alapértelmezett érték a "unk".

Name Típus Description
ar

string

cs

string

da

string

de

string

el

string

en

string

es

string

fi

string

fr

string

hu

string

it

string

ja

string

ko

string

nb

string

nl

string

pl

string

pt

string

ro

string

ru

string

sk

string

sr-Cyrl

string

sr-Latn

string

sv

string

tr

string

unk

string

zh-Hans

string

zh-Hant

string

OcrLine

Egyetlen felismert szövegsort leíró objektum.

Name Típus Description
boundingBox

string

Felismert vonal határolókerete. A négy egész szám a bal szél x koordinátáját, a határolókeret felső szélének y koordinátáját, szélességét és magasságát jelöli a bemeneti kép koordinátarendszerében, miután a középen az észlelt szövegszög szerint elforgatták (lásd a textAngle tulajdonságot), a bal felső sarokban lévő forrás és az y tengely lefelé mutatva.

words

OcrWord[]

Objektumok tömbje, ahol minden objektum egy felismert szót jelöl.

OcrRegion

A régió több sorból áll (például egy többoszlopos dokumentumban lévő szövegoszlopból).

Name Típus Description
boundingBox

string

Felismert régió határolókerete. A négy egész szám a bal szél x koordinátáját, a határolókeret felső szélének y koordinátáját, szélességét és magasságát jelöli a bemeneti kép koordinátarendszerében, miután a középen az észlelt szövegszög szerint elforgatták (lásd a textAngle tulajdonságot), a bal felső sarokban lévő forrás és az y tengely lefelé mutatva.

lines

OcrLine[]

Felismert szövegsorok tömbje.

OcrResult

Name Típus Description
language

string

A kép szövegének BCP-47 nyelvi kódja.

orientation

string

Ha szükséges, a képen felismert szöveg tájolása. Az érték (fel, le, balra vagy jobbra) arra az irányra utal, amellyel a felismert szöveg teteje felé néz, miután a kép a középen az észlelt szövegszög szerint elforgatva lett (lásd: textAngle tulajdonság). Ha a tájolás észlelését nem kérték, vagy nem észlelhető szöveg, az érték "NotDetected".

regions

OcrRegion[]

Objektumok tömbje, ahol minden objektum felismert szövegterületet jelöl.

textAngle

number

Az észlelt szöveg szöge radiánban a legközelebbi vízszintes vagy függőleges irányban. Miután az óramutató járásával megegyező irányban elforgatta a bemeneti képet, a felismert szövegvonalak vízszintessé vagy függőlegessé válnak. A tájolás tulajdonsággal kombinálva a felismerési eredmények megfelelően átfedhetők az eredeti képen, az eredeti kép vagy a felismerés eredményeinek megfelelő szögben az eredeti kép közepe körül elforgatva. Ha a szög nem észlelhető magabiztosan, ez a tulajdonság nem jelenik meg. Ha a kép eltérő szögben tartalmaz szöveget, a rendszer csak a szöveg egy részét ismeri fel megfelelően.

OcrWord

Egy felismert szóra vonatkozó információk.

Name Típus Description
boundingBox

string

Felismert szó határolókerete. A négy egész szám a bal szél x koordinátáját, a határolókeret felső szélének y koordinátáját, szélességét és magasságát jelöli a bemeneti kép koordinátarendszerében, miután a középen az észlelt szövegszög szerint elforgatták (lásd a textAngle tulajdonságot), a bal felső sarokban lévő forrás és az y tengely lefelé mutatva.

text

string

Egy felismert szó sztringértéke.