Azure AI Vision

3 分

Computer Vision 用に独自の機械学習モデルをトレーニングできますが、Computer Vision モデルのアーキテクチャは複雑な場合があり、トレーニングプロセスを実行するには大量のトレーニング画像とコンピューティング能力が必要になります。

Microsoft の Azure AI Vision サービスは、Florence 基盤モデルに基づくカスタマイズ可能な事前構築済みの Computer Vision モデルと、さまざまな強力な機能を提供しています。 Azure AI Vision を使用すると、高度な Computer Vision ソリューションを迅速かつ簡単に作成できます。独自の画像を使用してカスタムモデルを作成する機能を保持しながら、多くの一般的な Computer Vision シナリオに対して "市販の" 機能を利用しています。

Azure AI Vision サービス用の Azure リソース

Azure AI Vision を使用するには、Azure サブスクリプションでこのサービス用のリソースを作成する必要があります。次のいずれかのリソースタイプを使用できます。

Azure AI Vision:Azure AI Vision サービスの特定のリソース。このリソースの種類は、他の Azure AI サービスを使用するつもりがない場合、または Azure AI Vision リソースの使用率とコストを別々に追跡したい場合に使用します。
Azure AI サービス:Azure AI Language、Azure AI Custom Vision、Azure AI 翻訳など、他の多くの Azure AI サービスとともに、Azure AI Vision を含む一般的なリソース。複数の AI サービスを使用する予定で、管理と開発を簡略化する場合は、このリソースの種類を使用します。

Azure AI Vision サービスを使用した画像分析

サブスクリプションに適切なリソースを作成した後、画像を Azure AI Vision サービスに送信して、さまざまな分析タスクを実行できます。

Azure AI Vision では、次のような複数の画像分析機能がサポートされています。

光学式文字認識 (OCR) - 画像からのテキストの抽出。
画像のキャプションと説明の生成。
画像内の何千もの一般的なオブジェクトの検出。
画像内の視覚的特徴のタグ付け

これらのタスクなどは、Azure AI Vision Studio で実行できます。

Screenshot of Vision Studio.

光学式文字認識

Azure AI Vision サービスでは、光学式文字認識 (OCR) 機能を使用して、画像内のテキストを検出できます。たとえば、次の画像の食料品店にある製品の栄養ラベルについて考えてみましょう。

Diagram of a nutrition label.

Azure AI Vision サービスでは、この画像を分析し、次のテキストを抽出できます。

Nutrition Facts Amount Per Serving
Serving size:1 bar (40g)
Serving Per Package: 4
Total Fat 13g
Saturated Fat 1.5g
Amount Per Serving
Trans Fat 0g
calories 190
Cholesterol 0mg
ories from Fat 110
Sodium 20mg
ntDaily Values are based on
Vitamin A 50
calorie diet

ヒント

Azure AI Vision の OCR 機能については、Microsoft Learn の「Azure AI Vision を使用したテキストの読み取り」モジュールを参照してください。

キャプションを使用した画像の説明

Azure AI Vision には、画像を分析し、検出されたオブジェクトを評価し、画像から検出されたことを説明できる人間が判読できる語句や文を生成する機能があります。たとえば、次の画像を考えてみましょう。

Diagram of a man on a skateboard.

Azure AI Vision は、この画像に対して次のキャプションを返します。

"スケートボードでジャンプする男"

画像内の一般的なオブジェクトの検出

Azure AI Vision では、画像内の何千もの一般的なオブジェクトを識別できます。たとえば、先ほど説明したスケートボーダーの画像内のオブジェクトを検出するために使用すると、Azure AI Vision は次の予測を返します。

"スケートボード (90.40%)"
"人物 (95.5%)"

予測には、予測されたオブジェクトに対してモデルが計算した確率を示す "信頼度スコア" が含まれます。

Azure AI Vision は、検出されたオブジェクトラベルとその確率に加えて、検出されたオブジェクトの上、左、幅、高さを示す "境界ボックス" 座標を返します。次のように、これらの座標を使用して、各オブジェクトが検出された画像内の位置を確認できます。

Diagram of a skateboarder with bounding boxes around detected objects.

視覚的な特徴のタグ付け

Azure AI Vision では、そのコンテンツに基づいて画像の "タグ" を提案できます。これらのタグは、画像の属性を要約するメタデータとして画像に関連付けることができ、特定の属性またはコンテンツを含む画像を検索する際に使用できるキーとなる語と共に画像のインデックスを作成する場合に特に役に立つ可能性があります。

たとえば、(関連する信頼度スコアを持つ) スケートボーダー画像に対して返されるタグは次のとおりです。

"スポーツ (99.60%)"
"人物 (99.56%)"
"靴 (98.05%)"
"スケート (96.27%)"
"ボードスポーツ (95.58%)"
"スケートボード用品 (94.43%)"
"衣服 (94.02%)"
"壁 (93.81%)"
"スケートボード (93.78%)"
"スケートボーダー (93.25%)"
"個人スポーツ (92.80%)"
"ストリートスタント (90.81%)"
"バランス (90.81%)"
"ジャンプ (89.87%)"
"スポーツ用品 (88.61%)"
"エクストリームスポーツ (88.35%)"
"キックフリップ (88.18%)"
"スタント (87.27%)"
"スケートボード (86.87%)"
"スタントパフォーマー (85.83%)"
"膝 (85.30%)"
"スポーツ (85.24%)"
"ロングボード (84.61%)"
"ロングボード (84.45%)"
"ライディング (73.37%)"
"スケート (67.27%)"
"エア (64.83%)"
"若者 (63.29%)"
"アウトドア (61.39%)"

カスタムモデルのトレーニング

Azure AI Vision によって提供される組み込みモデルがニーズを満たしていない場合は、サービスを使用して、"画像分類" または "物体検出" 用のカスタムモデルをトレーニングできます。 Azure AI Vision では、事前トレーニング済みの基礎モデルにカスタムモデルをビルドします。つまり、比較的少ないトレーニング画像で高度なモデルをトレーニングできます。

画像の分類

画像分類モデルは、画像のカテゴリまたは "クラス" を予測するために使用されます。たとえば、次のように、モデルをトレーニングして、画像に表示される果物の種類を決定できます。

Apple	Banana	オレンジ

オブジェクトの検出

物体検出モデルは、画像内のオブジェクトを検出して分類し、境界ボックス座標を返して各オブジェクトの位置を特定します。 Azure AI Vision に組み込みの物体検出機能に加えて、独自の画像を使用してカスタム物体検出モデルをトレーニングできます。たとえば、次のように、果物の写真を使用して、画像内の複数の果物を検出するモデルをトレーニングできます。

Diagram of multiple detected fruits in an image.

Note

Azure AI Vision を使用してカスタムモデルをトレーニングする方法の詳細については、このモジュールの範囲には含まれていません。カスタムモデルトレーニングに関する情報は、Azure AI Vision に関するドキュメントを参照してください。

続行