Azure AI Vision
コンピューター ビジョン用に独自の機械学習モデルをトレーニングできますが、コンピューター ビジョン モデルのアーキテクチャは複雑な場合があります。トレーニング プロセスを実行するには、大量のトレーニング イメージとコンピューティング能力が必要です。
Microsoft の Azure AI Vision サービスは、フィレンツェの基礎モデルに基づく事前構築済みのカスタマイズ可能なコンピューター ビジョン モデルを提供し、さまざまな強力な機能を提供します。 Azure AI Vision を使用すると、高度なコンピューター ビジョン ソリューションを迅速かつ簡単に作成できます。独自の画像を使用してカスタム モデルを作成する機能を保持しながら、多くの一般的なコンピューター ビジョン シナリオに対して "既製" 機能を利用しています。
Azure AI Vision サービスの Azure リソース
Azure AI Vision を使用するには、Azure サブスクリプションにリソースを作成する必要があります。 次のいずれかのリソースの種類を使用できます。
- Azure AI Vision: Azure AI Vision サービスの特定のリソース。 他の Azure AI サービスを使用しない場合、または Azure AI Vision リソースの使用率とコストを個別に追跡する場合は、このリソースの種類を使用します。
- Azure AI サービス: Azure AI Vision とその他の多くの Azure AI サービスを含む一般的なリソース。Azure AI Language、Azure AI Custom Vision、Azure AI Translator など。 複数の AI サービスを使用する予定で、管理と開発を簡略化する場合は、このリソースの種類を使用します。
Azure AI Vision サービスを使用した画像の分析
サブスクリプションに適切なリソースを作成したら、Azure AI Vision サービスに画像を送信して、さまざまな分析タスクを実行できます。
Azure AI Vision では、次のような複数の画像分析機能がサポートされています。
- 光学式文字認識 (OCR) - 画像からテキストを抽出します。
- 画像のキャプションと説明の生成。
- 画像内の何千もの一般的なオブジェクトの検出。
- 画像内の視覚的特徴のタグ付け
これらのタスクは、 Azure AI Vision Studio で実行できます。
光学式文字認識
Azure AI Vision サービスでは、光学式文字認識 (OCR) 機能を使用して、画像内のテキストを検出できます。 たとえば、食料品店の製品の栄養ラベルの次の画像を考えてみましょう。
Azure AI Vision サービスでは、この画像を分析し、次のテキストを抽出できます。
Nutrition Facts Amount Per Serving
Serving size:1 bar (40g)
Serving Per Package: 4
Total Fat 13g
Saturated Fat 1.5g
Amount Per Serving
Trans Fat 0g
calories 190
Cholesterol 0mg
ories from Fat 110
Sodium 20mg
ntDaily Values are based on
Vitamin A 50
calorie diet
ヒント
Azure AI Vision の OCR 機能については、Microsoft Learn の 「Azure AI Vision を使用したテキストの読み取り 」モジュールを参照してください。
キャプションを使用して画像を記述する
Azure AI Vision には、画像を分析し、検出されたオブジェクトを評価し、画像内で検出された内容を記述できる人間が判読できるフレーズまたは文を生成する機能があります。 たとえば、次の図を考えてみます。
Azure AI Vision は、この画像の次のキャプションを返します。
スケートボードに飛び乗る男
画像内の一般的なオブジェクトの検出
Azure AI Vision では、画像内の何千もの一般的なオブジェクトを識別できます。 たとえば、前に説明したスケートボーダー画像内のオブジェクトを検出するために使用すると、Azure AI Vision は次の予測を返します。
- スケートボード (90.40%)
- "人物 (95.5%)"
予測には、予測されたオブジェクトに対してモデルが計算した確率を示す 信頼度スコア が含まれます。
検出されたオブジェクト ラベルとその確率に加えて、Azure AI Vision は、検出されたオブジェクトの上、左、幅、および高さを示す 境界ボックス 座標を返します。 次のように、これらの座標を使用して、各オブジェクトが検出された画像内の場所を確認できます。
検出されたオブジェクトを囲む境界ボックスが描かれたスケートボーダーの図。
ビジュアル機能のタグ付け
Azure AI Vision では、その内容に基づいて画像の タグ を提案できます。 これらのタグは、画像の属性を要約するメタデータとして画像に関連付けることができます。また、特定の属性またはコンテンツを持つ画像を検索するために使用される一連の重要な用語と共に画像のインデックスを作成する場合に便利です。
たとえば、(関連する信頼度スコアを持つ) スケートボーダー イメージに対して返されるタグは次のとおりです。
- スポーツ (99.60%)
- "人物 (99.56%)"
- フットウェア (98.05%)
- スケート (96.27%)
- ボードスポーツ (95.58%)
- スケートボード装置 (94.43%)
- 衣類 (94.02%)
- "壁 (93.81%)"
- スケートボード (93.78%)
- スケートボーダー (93.25%)
- 個人スポーツ (92.80%)
- ストリートスタント (90.81%)
- "バランス (90.81%)"
- ジャンプ (89.87%)
- スポーツ用品 (88.61%)
- 極端なスポーツ (88.35%)
- kickflip (88.18%)
- "スタント (87.27%)"
- スケートボード (86.87%)
- スタントパフォーマー (85.83%)
- "膝 (85.30%)"
- "スポーツ (85.24%)"
- "ロングボード (84.61%)"
- "ロングボード (84.45%)"
- "ライディング (73.37%)"
- スケート (67.27%)
- "エア (64.83%)"
- young (63.29%)
- 屋外 (61.39%)
カスタム モデルのトレーニング
Azure AI Vision によって提供される組み込みモデルがニーズを満たしていない場合は、サービスを使用して 、画像分類 または 物体検出用のカスタム モデルをトレーニングできます。 Azure AI Vision は、事前トレーニング済みの基礎モデルにカスタム モデルを構築します。つまり、比較的少数のトレーニング イメージを使用して高度なモデルをトレーニングできます。
画像分類
画像分類モデルは、画像のカテゴリまたは クラス を予測するために使用されます。 たとえば、次のように、モデルをトレーニングして、画像に表示される果物の種類を決定できます。
林檎 | バナナ | オレンジ |
---|---|---|
![]() |
![]() |
![]() |
オブジェクトの検出
オブジェクト検出モデルは、画像内のオブジェクトを検出して分類し、境界ボックス座標を返して各オブジェクトを見つけます。 Azure AI Vision の組み込みの物体検出機能に加えて、独自の画像を使用してカスタムオブジェクト検出モデルをトレーニングできます。 たとえば、果物の写真を使用して、画像内の複数の果物を検出するモデルをトレーニングできます。次に例を示します。
注
Azure AI Vision を使用してカスタム モデルをトレーニングする方法の詳細については、このモジュールの範囲外です。 カスタム モデル トレーニングに関する情報は、 Azure AI Vision のドキュメントで確認できます。