Recognize Printed Text In Stream - Recognize Printed Text In Stream

リファレンス

サービス:: Azure AI Services

API バージョン:: 3.2

光学式文字認識 (OCR) により画像内のテキストを検出し、認識した文字を抽出して、コンピューターで処理可能な文字ストリームに変換します。成功すると、OCR の結果が返されます。エラーが発生すると、エラーコードとエラーメッセージが返されます。エラーコードには、InvalidImageUrl、InvalidImageFormat、InvalidImageSize、NotSupportedImage、NotSupportedLanguage、または InternalServerError のいずれかを指定できます。

POST {Endpoint}/vision/v3.2/ocr?overload=stream&detectOrientation={detectOrientation}

省略可能なパラメーターを含む:

POST {Endpoint}/vision/v3.2/ocr?overload=stream&detectOrientation={detectOrientation}&language={language}&model-version={model-version}

URI パラメーター

名前	/	必須	型	説明
Endpoint	path	True	string	サポートされている Cognitive Services エンドポイント。
detectOrientation	query	True	boolean	画像内のテキストの向きを検出するかどうか。 detectOrientation=true を指定すると、OCR サービスは画像の向きを検出し、さらに処理する前に修正しようとします (逆さにある場合など)。
language	query		OcrLanguages	画像で検出されるテキストの BCP-47 言語コード。既定値は 'unk' です。
model-version	query		string pattern: ^(latest\|\d{4}-\d{2}-\d{2})(-preview)?$	AI モデルのバージョンを指定する省略可能なパラメーター。指定できる値は、"latest"、"2021-04-01"、"2021-05-01" です。既定値は "latest" です。

要求ヘッダー

Media Types: "application/octet-stream", "multipart/form-data"

名前	必須	型	説明
Ocp-Apim-Subscription-Key	True	string

要求本文

Media Types: "application/octet-stream", "multipart/form-data"

名前	型	説明
Image	object (file)	イメージストリーム。

応答

名前	型	説明
200 OK	OcrResult	OCR により、リージョン/行/単語の階層が作成されます。結果には、領域、行、単語のテキスト、境界ボックスが含まれます。最も近い水平方向または垂直方向に対する検出されたテキストの角度 (ラジアン単位)。この角度で入力画像を時計回りに回転させた後、認識されたテキスト行は水平または垂直になります。配向性と組み合わせて、元の画像に正しく認識結果を重ね合わせ、元の画像の中心を中心に適切な角度で元の画像または認識結果を回転させることにより使用することができる。角度が自信を持って検出できない場合、このプロパティは存在しません。画像に異なる角度のテキストが含まれている場合、テキストの一部のみが正しく認識されます。
Other Status Codes	ComputerVisionErrorResponse	エラー応答。

セキュリティ

Ocp-Apim-Subscription-Key

型: apiKey
/: header

例

Successful RecognizePrintedText request

要求のサンプル

HTTP

POST https://westus.api.cognitive.microsoft.com/vision/v3.2/ocr?overload=stream&detectOrientation=true&language=en


"{binary}"

応答のサンプル

状態コード:: 200

{
  "language": "en",
  "textAngle": -2.0000000000000338,
  "orientation": "Up",
  "regions": [
    {
      "boundingBox": "462,379,497,258",
      "lines": [
        {
          "boundingBox": "462,379,497,74",
          "words": [
            {
              "boundingBox": "462,379,41,73",
              "text": "A"
            },
            {
              "boundingBox": "523,379,153,73",
              "text": "GOAL"
            },
            {
              "boundingBox": "694,379,265,74",
              "text": "WITHOUT"
            }
          ]
        },
        {
          "boundingBox": "565,471,289,74",
          "words": [
            {
              "boundingBox": "565,471,41,73",
              "text": "A"
            },
            {
              "boundingBox": "626,471,150,73",
              "text": "PLAN"
            },
            {
              "boundingBox": "801,472,53,73",
              "text": "IS"
            }
          ]
        },
        {
          "boundingBox": "519,563,375,74",
          "words": [
            {
              "boundingBox": "519,563,149,74",
              "text": "JUST"
            },
            {
              "boundingBox": "683,564,41,72",
              "text": "A"
            },
            {
              "boundingBox": "741,564,153,73",
              "text": "WISH"
            }
          ]
        }
      ]
    }
  ],
  "modelVersion": "2021-04-01"
}

定義

名前	説明
ComputerVisionError	API 要求エラー。
ComputerVisionErrorCodes	エラーコード。
ComputerVisionErrorResponse	API エラー応答。
ComputerVisionInnerError	API 要求エラーの詳細。
ComputerVisionInnerErrorCodeValue	エラーコード。
OcrLanguages	画像で検出されるテキストの BCP-47 言語コード。既定値は 'unk' です。
OcrLine	認識された 1 行のテキストを記述するオブジェクト。
OcrRegion	領域は複数行 (複数列のドキュメント内のテキストの列など) で構成されます。
OcrResult
OcrWord	認識された単語に関する情報。

ComputerVisionError

Object

API 要求エラー。

名前	型	説明
code	ComputerVisionErrorCodes	エラーコード。
innererror	ComputerVisionInnerError	内部エラーには、より具体的な情報が含まれています。
message	string	サービスによって報告されたエラーを説明するメッセージ。

ComputerVisionErrorCodes

列挙

エラーコード。

値	説明
InternalServerError
InvalidArgument
InvalidRequest
ServiceUnavailable

ComputerVisionErrorResponse

Object

API エラー応答。

名前	型	説明
error	ComputerVisionError	エラーの内容。

ComputerVisionInnerError

Object

API 要求エラーの詳細。

名前	型	説明
code	ComputerVisionInnerErrorCodeValue	エラーコード。
message	string	エラーメッセージ。

ComputerVisionInnerErrorCodeValue

列挙

エラーコード。

値	説明
BadArgument
CancelledRequest
DetectFaceError
FailedToProcess
InternalServerError
InvalidDetails
InvalidImageFormat
InvalidImageSize
InvalidImageUrl
InvalidModel
InvalidThumbnailSize
NotSupportedFeature
NotSupportedImage
NotSupportedLanguage
NotSupportedVisualFeature
StorageException
Timeout
Unspecified
UnsupportedMediaType

OcrLanguages

列挙

画像で検出されるテキストの BCP-47 言語コード。既定値は 'unk' です。

値	説明
ar
cs
da
de
el
en
es
fi
fr
hu
it
ja
ko
nb
nl
pl
pt
ro
ru
sk
sr-Cyrl
sr-Latn
sv
tr
unk
zh-Hans
zh-Hant

OcrLine

Object

認識された 1 行のテキストを記述するオブジェクト。

名前	型	説明
boundingBox	string	認識された線の境界ボックス。 4 つの整数は、左端の x 座標、上端の y 座標、幅、および境界ボックスの高さを表します。入力画像の座標系では、検出されたテキスト角度 (textAngle プロパティを参照) に従って中心を中心に回転した後、左上隅に原点を持ち、y 軸が下向きになります。
words	OcrWord[]	オブジェクトの配列。各オブジェクトは認識された単語を表します。

OcrRegion

Object

領域は複数行 (複数列のドキュメント内のテキストの列など) で構成されます。

名前	型	説明
boundingBox	string	認識された領域の境界ボックス。 4 つの整数は、左端の x 座標、上端の y 座標、幅、および境界ボックスの高さを表します。入力画像の座標系では、検出されたテキスト角度 (textAngle プロパティを参照) に従って中心を中心に回転した後、左上隅に原点を持ち、y 軸が下向きになります。
lines	OcrLine[]	認識されたテキスト行の配列。

OcrResult

Object

名前	型	説明
language	string	イメージ内のテキストの BCP-47 言語コード。
modelVersion	string pattern: ^(latest\|\d{4}-\d{2}-\d{2})(-preview)?$	AI モデルのバージョン。
orientation	string	要求された場合、画像内で認識されるテキストの向き。値 (上、下、左、または右) は、検出されたテキストの角度に従って画像が中心を中心に回転した後に、認識されたテキストの上端が向いている方向を指します (textAngle プロパティを参照)。方向の検出が要求されなかった場合、またはテキストが検出されない場合、値は 'NotDetected' です。
regions	OcrRegion[]	オブジェクトの配列。各オブジェクトは認識されたテキストの領域を表します。
textAngle	number (double)	最も近い水平方向または垂直方向に対する検出されたテキストの角度 (ラジアン単位)。この角度で入力画像を時計回りに回転させた後、認識されたテキスト行は水平または垂直になります。配向性と組み合わせて、元の画像に正しく認識結果を重ね合わせ、元の画像の中心を中心に適切な角度で元の画像または認識結果を回転させることにより使用することができる。角度が自信を持って検出できない場合、このプロパティは存在しません。画像に異なる角度のテキストが含まれている場合、テキストの一部のみが正しく認識されます。

OcrWord

Object

認識された単語に関する情報。

名前	型	説明
boundingBox	string	認識された単語の境界ボックス。 4 つの整数は、左端の x 座標、上端の y 座標、幅、および境界ボックスの高さを表します。入力画像の座標系では、検出されたテキスト角度 (textAngle プロパティを参照) に従って中心を中心に回転した後、左上隅に原点を持ち、y 軸が下向きになります。
text	string	認識された単語の文字列値。

次の方法で共有

Recognize Printed Text In Stream - Recognize Printed Text In Stream

URI パラメーター

要求ヘッダー

要求本文

応答

セキュリティ

Ocp-Apim-Subscription-Key

例

Successful RecognizePrintedText request

要求のサンプル

応答のサンプル

定義

ComputerVisionError

ComputerVisionErrorCodes

ComputerVisionErrorResponse

ComputerVisionInnerError

ComputerVisionInnerErrorCodeValue

OcrLanguages

OcrLine

OcrRegion

OcrResult

OcrWord