次の方法で共有


Recognize Printed Text In Stream - Recognize Printed Text In Stream

光学式文字認識 (OCR) により画像内のテキストを検出し、認識した文字を抽出して、コンピューターで処理可能な文字ストリームに変換します。 成功すると、OCR の結果が返されます。 エラーが発生すると、エラー コードとエラー メッセージが返されます。 エラー コードには、InvalidImageUrl、InvalidImageFormat、InvalidImageSize、NotSupportedImage、NotSupportedLanguage、または InternalServerError のいずれかを指定できます。

POST {Endpoint}/vision/v3.2/ocr?overload=stream&detectOrientation={detectOrientation}
POST {Endpoint}/vision/v3.2/ocr?overload=stream&detectOrientation={detectOrientation}&language={language}&model-version={model-version}

URI パラメーター

名前 / 必須 説明
Endpoint
path True

string

サポートされている Cognitive Services エンドポイント。

detectOrientation
query True

boolean

画像内のテキストの向きを検出するかどうか。 detectOrientation=true を指定すると、OCR サービスは画像の向きを検出し、さらに処理する前に修正しようとします (逆さにある場合など)。

language
query

OcrLanguages

画像で検出されるテキストの BCP-47 言語コード。 既定値は 'unk' です。

model-version
query

string

pattern: ^(latest|\d{4}-\d{2}-\d{2})(-preview)?$

AI モデルのバージョンを指定する省略可能なパラメーター。 指定できる値は、"latest"、"2021-04-01"、"2021-05-01" です。 既定値は "latest" です。

要求ヘッダー

Media Types: "application/octet-stream", "multipart/form-data"

名前 必須 説明
Ocp-Apim-Subscription-Key True

string

要求本文

Media Types: "application/octet-stream", "multipart/form-data"

名前 説明
Image

object (file)

イメージ ストリーム。

応答

名前 説明
200 OK

OcrResult

OCR により、リージョン/行/単語の階層が作成されます。 結果には、領域、行、単語のテキスト、境界ボックスが含まれます。 最も近い水平方向または垂直方向に対する検出されたテキストの角度 (ラジアン単位)。 この角度で入力画像を時計回りに回転させた後、認識されたテキスト行は水平または垂直になります。 配向性と組み合わせて、元の画像に正しく認識結果を重ね合わせ、元の画像の中心を中心に適切な角度で元の画像または認識結果を回転させることにより使用することができる。 角度が自信を持って検出できない場合、このプロパティは存在しません。 画像に異なる角度のテキストが含まれている場合、テキストの一部のみが正しく認識されます。

Other Status Codes

ComputerVisionErrorResponse

エラー応答。

セキュリティ

Ocp-Apim-Subscription-Key

型: apiKey
/: header

Successful RecognizePrintedText request

要求のサンプル

POST https://westus.api.cognitive.microsoft.com/vision/v3.2/ocr?overload=stream&detectOrientation=true&language=en


"{binary}"

応答のサンプル

{
  "language": "en",
  "textAngle": -2.0000000000000338,
  "orientation": "Up",
  "regions": [
    {
      "boundingBox": "462,379,497,258",
      "lines": [
        {
          "boundingBox": "462,379,497,74",
          "words": [
            {
              "boundingBox": "462,379,41,73",
              "text": "A"
            },
            {
              "boundingBox": "523,379,153,73",
              "text": "GOAL"
            },
            {
              "boundingBox": "694,379,265,74",
              "text": "WITHOUT"
            }
          ]
        },
        {
          "boundingBox": "565,471,289,74",
          "words": [
            {
              "boundingBox": "565,471,41,73",
              "text": "A"
            },
            {
              "boundingBox": "626,471,150,73",
              "text": "PLAN"
            },
            {
              "boundingBox": "801,472,53,73",
              "text": "IS"
            }
          ]
        },
        {
          "boundingBox": "519,563,375,74",
          "words": [
            {
              "boundingBox": "519,563,149,74",
              "text": "JUST"
            },
            {
              "boundingBox": "683,564,41,72",
              "text": "A"
            },
            {
              "boundingBox": "741,564,153,73",
              "text": "WISH"
            }
          ]
        }
      ]
    }
  ],
  "modelVersion": "2021-04-01"
}

定義

名前 説明
ComputerVisionError

API 要求エラー。

ComputerVisionErrorCodes

エラー コード。

ComputerVisionErrorResponse

API エラー応答。

ComputerVisionInnerError

API 要求エラーの詳細。

ComputerVisionInnerErrorCodeValue

エラー コード。

OcrLanguages

画像で検出されるテキストの BCP-47 言語コード。 既定値は 'unk' です。

OcrLine

認識された 1 行のテキストを記述するオブジェクト。

OcrRegion

領域は複数行 (複数列のドキュメント内のテキストの列など) で構成されます。

OcrResult
OcrWord

認識された単語に関する情報。

ComputerVisionError

API 要求エラー。

名前 説明
code

ComputerVisionErrorCodes

エラー コード。

innererror

ComputerVisionInnerError

内部エラーには、より具体的な情報が含まれています。

message

string

サービスによって報告されたエラーを説明するメッセージ。

ComputerVisionErrorCodes

エラー コード。

説明
InternalServerError
InvalidArgument
InvalidRequest
ServiceUnavailable

ComputerVisionErrorResponse

API エラー応答。

名前 説明
error

ComputerVisionError

エラーの内容。

ComputerVisionInnerError

API 要求エラーの詳細。

名前 説明
code

ComputerVisionInnerErrorCodeValue

エラー コード。

message

string

エラーメッセージ。

ComputerVisionInnerErrorCodeValue

エラー コード。

説明
BadArgument
CancelledRequest
DetectFaceError
FailedToProcess
InternalServerError
InvalidDetails
InvalidImageFormat
InvalidImageSize
InvalidImageUrl
InvalidModel
InvalidThumbnailSize
NotSupportedFeature
NotSupportedImage
NotSupportedLanguage
NotSupportedVisualFeature
StorageException
Timeout
Unspecified
UnsupportedMediaType

OcrLanguages

画像で検出されるテキストの BCP-47 言語コード。 既定値は 'unk' です。

説明
ar
cs
da
de
el
en
es
fi
fr
hu
it
ja
ko
nb
nl
pl
pt
ro
ru
sk
sr-Cyrl
sr-Latn
sv
tr
unk
zh-Hans
zh-Hant

OcrLine

認識された 1 行のテキストを記述するオブジェクト。

名前 説明
boundingBox

string

認識された線の境界ボックス。 4 つの整数は、左端の x 座標、上端の y 座標、幅、および境界ボックスの高さを表します。入力画像の座標系では、検出されたテキスト角度 (textAngle プロパティを参照) に従って中心を中心に回転した後、左上隅に原点を持ち、y 軸が下向きになります。

words

OcrWord[]

オブジェクトの配列。各オブジェクトは認識された単語を表します。

OcrRegion

領域は複数行 (複数列のドキュメント内のテキストの列など) で構成されます。

名前 説明
boundingBox

string

認識された領域の境界ボックス。 4 つの整数は、左端の x 座標、上端の y 座標、幅、および境界ボックスの高さを表します。入力画像の座標系では、検出されたテキスト角度 (textAngle プロパティを参照) に従って中心を中心に回転した後、左上隅に原点を持ち、y 軸が下向きになります。

lines

OcrLine[]

認識されたテキスト行の配列。

OcrResult

名前 説明
language

string

イメージ内のテキストの BCP-47 言語コード。

modelVersion

string

pattern: ^(latest|\d{4}-\d{2}-\d{2})(-preview)?$

AI モデルのバージョン。

orientation

string

要求された場合、画像内で認識されるテキストの向き。 値 (上、下、左、または右) は、検出されたテキストの角度に従って画像が中心を中心に回転した後に、認識されたテキストの上端が向いている方向を指します (textAngle プロパティを参照)。 方向の検出が要求されなかった場合、またはテキストが検出されない場合、値は 'NotDetected' です。

regions

OcrRegion[]

オブジェクトの配列。各オブジェクトは認識されたテキストの領域を表します。

textAngle

number (double)

最も近い水平方向または垂直方向に対する検出されたテキストの角度 (ラジアン単位)。 この角度で入力画像を時計回りに回転させた後、認識されたテキスト行は水平または垂直になります。 配向性と組み合わせて、元の画像に正しく認識結果を重ね合わせ、元の画像の中心を中心に適切な角度で元の画像または認識結果を回転させることにより使用することができる。 角度が自信を持って検出できない場合、このプロパティは存在しません。 画像に異なる角度のテキストが含まれている場合、テキストの一部のみが正しく認識されます。

OcrWord

認識された単語に関する情報。

名前 説明
boundingBox

string

認識された単語の境界ボックス。 4 つの整数は、左端の x 座標、上端の y 座標、幅、および境界ボックスの高さを表します。入力画像の座標系では、検出されたテキスト角度 (textAngle プロパティを参照) に従って中心を中心に回転した後、左上隅に原点を持ち、y 軸が下向きになります。

text

string

認識された単語の文字列値。