Azure 上の Vision Studio の概要

完了

画像からテキストを抽出する機能は、Azure AI Vision サービスによって処理されます。 Azure AI Vision のサービスの 1 つに、Read API があります。 Read API は、画像、PDF、TIFF ファイルからのテキスト抽出を行う OCR エンジンと考えることができます。

Read API は最新の認識モデルを使用し、大量のテキストを含む画像や、かなりの視覚ノイズがある画像用に最適化されています。 テキストの行数、テキストを含む画像、手書き文字を考慮して、使用する適切な認識モデルを自動的に決定できます。

読み取り API の結果は、次の階層に配置されます。

  • ページ - ページ サイズと向きに関する情報を含む、テキストの各ページ。
  • - ページ上のテキスト行。
  • 単語 - 境界ボックスの座標とテキストそのものを含む、テキストの行内の単語。

各行と単語には、ページ上での位置を示す境界ボックス座標が含まれます。

Vision Studio にはグラフィカル ユーザー インターフェイスが用意されており、コードを記述することなく Azure AI Vision サービスを試すことができます。

Azure リソースを作成する

Azure AI Vision サービスを使用するには、最初に Azure サブスクリプションでそのためのリソースを作成する必要があります。 次のいずれかのリソース タイプを使用できます。

  • Azure AI Vision:視覚サービスの特定のリソース。 このリソースの種類は、他の AI サービスを使用するつもりがない場合、または AI Vision リソースの使用率とコストを独立して追跡したい場合に使用します。
  • Azure AI サービス:Azure AI Language や Azure AI 音声など、他の多くの Azure AI サービスとともに、Azure AI Vision を含む一般的なリソース。 複数の Azure AI サービスを使用する予定で、管理と開発を簡略化する場合は、このリソースの種類を使用します。