Azure での Read API の概要

完了

画像からテキストを抽出する機能は、Computer Vision サービスによって処理され、画像解析機能も提供します。

Computer Vision 用の Azure リソース

Computer Vision サービスを使用するための最初のステップは、Azure サブスクリプションでそのためのリソースを作成することです。 次のいずれかのリソース タイプを使用できます。

  • Computer Vision: Computer Vision サービスの特定のリソース。 他のコグニティブ サービスを使用しない場合や、Computer Vision リソースの使用率とコストを別々に追跡する場合に、このリソースの種類を使用します。
  • Cognitive Services: Computer Vision と他の多くのコグニティブ サービスを含む一般的なコグニティブ サービスのリソース (Text Analytics、Translator Text など)。 複数のコグニティブ サービスを使用する予定で、管理と開発を簡略化する場合は、このリソースの種類を使用します。

どちらの種類のリソースを作成する場合でも、次の 2 つの情報を使用する必要があります。

  • クライアント アプリケーションの認証に使用されるキー
  • リソースにアクセスできる HTTP アドレスを提供するエンドポイント

注意

Cognitive Services リソースを作成する場合、クライアント アプリケーションは、使用している特定のサービスに関係なく、同じキーとエンドポイントを使用します。

Computer Vision サービスを使用してテキストを読み取る

多くの場合、画像にはテキストが含まれています。 テキストは入力したものでも、手書きでもかまいません。 一般的な例としては、道路標識付きの画像、JPEG や PNG ファイル形式などの画像形式でスキャンされたドキュメント、会議中に使用されたホワイト ボードの写真などです。

Computer Vision サービスでは、画像内のテキストを読み取るために使用する 1 つのアプリケーション プログラミング インターフェイス (API) (Read API) を提供しています。

読み取り API

読み取り API は最新の認識モデルを使用し、大量のテキストを含む画像や、かなりの視覚ノイズがある画像に最適化されています。

Read API を使用すると、大量のテキストを含むスキャンされたドキュメントを処理することができます。 また、使用に適した認識モデルを自動的に判断する機能が搭載されており、テキストの行を考慮したり、印刷されたテキストを含む画像をサポートしたりすることに加え、手書き文字も認識します。

Read API は、より大きなドキュメントで動作することから、コンテンツを読み取って結果をアプリケーションに返すときには、アプリケーションをブロックしないように非同期的に動作します。 つまり、読み取り API を使用するには、アプリケーションで次の 3 ステップの処理を行う必要があります。

  1. API に画像を送信し、応答として "操作 ID" を取得します。
  2. 操作 ID を使用して画像解析操作の状態を確認し、完了するまで待機します。
  3. 操作の結果を取得します。

読み取り API の結果は、次の階層に配置されます。

  • ページ - ページ サイズと向きに関する情報を含む、テキストの各ページ。
  • - ページ上のテキスト行。
  • 単語 - 境界ボックスの座標とテキストそのものを含む、テキストの行内の単語。

各行と単語には、ページ上での位置を示す境界ボックス座標が含まれます。