Recognize Printed Text - Recognize Printed Text

リファレンス

Service:: Cognitive Services - Computer Vision

API Version:: 2.1

光学式文字認識 (OCR) により画像内のテキストを検出し、認識した文字を抽出して、コンピューターで処理可能な文字ストリームに変換します。成功すると、OCR の結果が返されます。エラーが発生すると、エラーコードとエラーメッセージが返されます。このエラーコードには、InvalidImageUrl、InvalidImageFormat、InvalidImageSize、NotSupportedImage、NotSupportedLanguage、または InternalServerError のいずれかを指定できます。

POST {Endpoint}/vision/v2.1/ocr?detectOrientation={detectOrientation}

With optional parameters:

POST {Endpoint}/vision/v2.1/ocr?detectOrientation={detectOrientation}&language={language}

URI パラメーター

名前	/	必須	型	説明
Endpoint	path	True	string	サポートされている Cognitive Services エンドポイント。
detectOrientation	query	True	boolean	画像内のテキストの向きを検出するかどうか。 detectOrientation=true を指定すると、OCR サービスは画像の向きを検出し、さらに処理する前に修正しようとします (逆の場合など)。
language	query		OcrLanguages	画像で検出されるテキストの BCP-47 言語コード。既定値は 'unk' です。

要求ヘッダー

名前	必須	型	説明
Ocp-Apim-Subscription-Key	True	string

要求本文

名前	必須	型	説明
url	True	string	イメージのパブリックに到達可能な URL。

応答

名前	型	説明
200 OK	OcrResult	OCR の結果、リージョン/行/単語の階層が作成されます。結果には、領域、行、単語のテキスト、境界ボックスが含まれます。最も近い水平方向または垂直方向に対する検出されたテキストの角度をラジアン単位で指定します。この角度で入力画像を時計回りに回転すると、認識されたテキスト行は水平または垂直になります。配向性と組み合わせて、元の画像に正しく認識結果を重ね合わせ、元の画像の中心を中心に適切な角度で元の画像または認識結果のいずれかを回転させることによって使用することができる。角度を自信を持って検出できない場合、このプロパティは存在しません。画像に異なる角度のテキストが含まれている場合、テキストの一部のみが正しく認識されます。
Other Status Codes	ComputerVisionError	エラー応答。

セキュリティ

Ocp-Apim-Subscription-Key

Type: apiKey
In: header

例

Successful RecognizePrintedText request

Sample Request

HTTP

POST https://westus.api.cognitive.microsoft.com/vision/v2.1/ocr?detectOrientation=true&language=en


"{url}"

Sample Response

Status code:: 200

{
  "language": "en",
  "textAngle": -2.0000000000000338,
  "orientation": "Up",
  "regions": [
    {
      "boundingBox": "462,379,497,258",
      "lines": [
        {
          "boundingBox": "462,379,497,74",
          "words": [
            {
              "boundingBox": "462,379,41,73",
              "text": "A"
            },
            {
              "boundingBox": "523,379,153,73",
              "text": "GOAL"
            },
            {
              "boundingBox": "694,379,265,74",
              "text": "WITHOUT"
            }
          ]
        },
        {
          "boundingBox": "565,471,289,74",
          "words": [
            {
              "boundingBox": "565,471,41,73",
              "text": "A"
            },
            {
              "boundingBox": "626,471,150,73",
              "text": "PLAN"
            },
            {
              "boundingBox": "801,472,53,73",
              "text": "IS"
            }
          ]
        },
        {
          "boundingBox": "519,563,375,74",
          "words": [
            {
              "boundingBox": "519,563,149,74",
              "text": "JUST"
            },
            {
              "boundingBox": "683,564,41,72",
              "text": "A"
            },
            {
              "boundingBox": "741,564,153,73",
              "text": "WISH"
            }
          ]
        }
      ]
    }
  ]
}

定義

名前	説明
ComputerVisionError	API 要求エラーの詳細。
ComputerVisionErrorCodes	エラーコード。
ImageUrl
OcrLanguages	画像で検出されるテキストの BCP-47 言語コード。既定値は 'unk' です。
OcrLine	認識された 1 行のテキストを記述するオブジェクト。
OcrRegion	領域は複数行 (複数列の文書内のテキストの列など) で構成されます。
OcrResult
OcrWord	認識された単語に関する情報。

ComputerVisionError

API 要求エラーの詳細。

名前	型	説明
code	ComputerVisionErrorCodes	エラーコード。
message	string	サービスによって報告されたエラーを説明するメッセージ。
requestId	string	一意の要求識別子。

ComputerVisionErrorCodes

エラーコード。

名前	型	説明
BadArgument	string
CancelledRequest	string
DetectFaceError	string
FailedToProcess	string
InternalServerError	string
InvalidDetails	string
InvalidImageFormat	string
InvalidImageSize	string
InvalidImageUrl	string
InvalidModel	string
InvalidThumbnailSize	string
NotSupportedFeature	string
NotSupportedImage	string
NotSupportedLanguage	string
NotSupportedVisualFeature	string
StorageException	string
Timeout	string
Unspecified	string
UnsupportedMediaType	string

ImageUrl

名前	型	説明
url	string	イメージのパブリックに到達可能な URL。

OcrLanguages

画像で検出されるテキストの BCP-47 言語コード。既定値は 'unk' です。

名前	型	説明
ar	string
cs	string
da	string
de	string
el	string
en	string
es	string
fi	string
fr	string
hu	string
it	string
ja	string
ko	string
nb	string
nl	string
pl	string
pt	string
ro	string
ru	string
sk	string
sr-Cyrl	string
sr-Latn	string
sv	string
tr	string
unk	string
zh-Hans	string
zh-Hant	string

OcrLine

認識された 1 行のテキストを記述するオブジェクト。

名前	型	説明
boundingBox	string	認識された行の境界ボックス。 4 つの整数は、左端の x 座標、境界ボックスの y 座標、幅、および境界ボックスの高さを表します。入力画像の座標系では、検出されたテキストの角度 (textAngle プロパティを参照) に従って中心を中心に回転した後、左上隅に原点があり、y 軸が下向きになります。
words	OcrWord[]	オブジェクトの配列。各オブジェクトは認識された単語を表します。

OcrRegion

領域は複数行 (複数列の文書内のテキストの列など) で構成されます。

名前	型	説明
boundingBox	string	認識されたリージョンの境界ボックス。 4 つの整数は、左端の x 座標、境界ボックスの y 座標、幅、および境界ボックスの高さを表します。入力画像の座標系では、検出されたテキストの角度 (textAngle プロパティを参照) に従って中心を中心に回転した後、左上隅に原点があり、y 軸が下向きになります。
lines	OcrLine[]	認識されたテキスト行の配列。

OcrResult

名前	型	説明
language	string	画像内のテキストの BCP-47 言語コード。
orientation	string	要求された場合は、画像内で認識されるテキストの向き。値 (上、下、左、または右) は、画像が検出されたテキストの角度に従って中央を中心に回転した後に、認識されたテキストの上部が向いている方向を指します (textAngle プロパティを参照)。方向の検出が要求されなかった場合、またはテキストが検出されない場合、値は 'NotDetected' になります。
regions	OcrRegion[]	オブジェクトの配列。各オブジェクトは、認識されたテキストの領域を表します。
textAngle	number	最も近い水平方向または垂直方向に対する検出されたテキストの角度をラジアン単位で指定します。この角度で入力画像を時計回りに回転すると、認識されたテキスト行は水平または垂直になります。配向性と組み合わせて、元の画像に正しく認識結果を重ね合わせ、元の画像の中心を中心に適切な角度で元の画像または認識結果のいずれかを回転させることによって使用することができる。角度を自信を持って検出できない場合、このプロパティは存在しません。画像に異なる角度のテキストが含まれている場合、テキストの一部のみが正しく認識されます。

OcrWord

認識された単語に関する情報。

名前	型	説明
boundingBox	string	認識された単語の境界ボックス。 4 つの整数は、左端の x 座標、境界ボックスの y 座標、幅、および境界ボックスの高さを表します。入力画像の座標系では、検出されたテキストの角度 (textAngle プロパティを参照) に従って中心を中心に回転した後、左上隅に原点があり、y 軸が下向きになります。
text	string	認識された単語の文字列値。

次の方法で共有