画像キャプション (バージョン 4.0)

[アーティクル]
01/29/2024

Image Analysis 4.0 の画像キャプションは、キャプション機能と高密度キャプション機能で利用できます。

キャプションを使用すると、すべての画像コンテンツに対して 1 文の説明が生成されます。高密度キャプションを使用すると、画像全体の説明に加えて、画像の最大 10 個の領域について 1 文の説明が生成され、より詳細な情報が提供されます。高密度キャプションからは、説明の対象になっている画像領域の境界ボックスの座標も返されます。どちらの機能も、最新の画期的な Florence ベースの AI モデルを使用します。

現時点では、画像キャプションは英語でのみ使用できます。

重要

現時点では、Image Analysis 4.0 の画像キャプションは、米国東部、フランス中部、韓国中部、北ヨーロッパ、東南アジア、西ヨーロッパ、米国西部、東アジアの各 Azure データセンターリージョンでのみ使用できます。キャプション機能と高密度キャプション機能から結果を取得するには、これらのリージョンのいずれかに配置された Vision リソースを使う必要があります。

これらのリージョンの外部の Vision リソースを使って画像キャプションを生成する必要がある場合は、すべての Azure AI Vision リージョンで利用できる Image Analysis 3.2 を使ってください。

Vision Studio を使用して、ブラウザーですばやく簡単に画像キャプションの機能を試すことができます。

Vision Studio を試す

性別に依存しないキャプション

キャプションには、性別の用語 ("man"、"woman"、"boy"、"girl") が既定で含まれています。結果でこれらの用語を "person" に置き換えて、性別に依存しないキャプションを受け取ることができります。これを行うには、要求 URL でオプションの API 要求パラメーター gender-neutral-caption を true に設定します。

次の JSON 応答は、視覚的特徴に基づいてサンプル画像を説明するときに、Analysis 4.0 API から返される内容を示したものです。

Photo of a man pointing at a screen

"captions": [
    {
        "text": "a man pointing at a screen",
        "confidence": 0.4891590476036072
    }
]

次の JSON 応答は、サンプル画像の高密度キャプションを生成するときに Analysis 4.0 API から返される内容を示したものです。

Photo of a tractor on a farm

{
  "denseCaptionsResult": {
    "values": [
      {
        "text": "a man driving a tractor in a farm",
        "confidence": 0.535620927810669,
        "boundingBox": {
          "x": 0,
          "y": 0,
          "w": 850,
          "h": 567
        }
      },
      {
        "text": "a man driving a tractor in a field",
        "confidence": 0.5428450107574463,
        "boundingBox": {
          "x": 132,
          "y": 266,
          "w": 209,
          "h": 219
        }
      },
      {
        "text": "a blurry image of a tree",
        "confidence": 0.5139822363853455,
        "boundingBox": {
          "x": 147,
          "y": 126,
          "w": 76,
          "h": 131
        }
      },
      {
        "text": "a man riding a tractor",
        "confidence": 0.4799223840236664,
        "boundingBox": {
          "x": 206,
          "y": 264,
          "w": 64,
          "h": 97
        }
      },
      {
        "text": "a blue sky above a hill",
        "confidence": 0.35495415329933167,
        "boundingBox": {
          "x": 0,
          "y": 0,
          "w": 837,
          "h": 166
        }
      },
      {
        "text": "a tractor in a field",
        "confidence": 0.47338250279426575,
        "boundingBox": {
          "x": 0,
          "y": 243,
          "w": 838,
          "h": 311
        }
      }
    ]
  },
  "modelVersion": "2024-02-01",
  "metadata": {
    "width": 850,
    "height": 567
  }
}

API の使用

画像キャプション
高密度キャプション

画像キャプション作成機能は、Analyze Image API の一部です。 Caption を features クエリパラメーターに追加します。次に、完全な JSON 応答が得られたら、"captionResult" セクションのコンテンツの文字列を解析します。

画像キャプション (バージョン 4.0)

性別に依存しないキャプション

キャプションと高密度キャプションの例

API の使用

次の手順

その他のリソース