画像キャプション (バージョン 4.0)

Image Analysis 4.0 の画像キャプションは、キャプション機能と高密度キャプション機能で利用できます。

キャプションを使用すると、すべての画像コンテンツに対して 1 文の説明が生成されます。 高密度キャプションを使用すると、画像全体の説明に加えて、画像の最大 10 個の領域について 1 文の説明が生成され、より詳細な情報が提供されます。 高密度キャプションからは、説明の対象になっている画像領域の境界ボックスの座標も返されます。 どちらの機能も、最新の画期的な Florence ベースの AI モデルを使用します。

現時点では、画像キャプションは英語でのみ使用できます。

重要

現時点では、Image Analysis 4.0 の画像キャプションは、米国東部、フランス中部、韓国中部、北ヨーロッパ、東南アジア、西ヨーロッパ、米国西部、東アジアの各 Azure データ センター リージョンでのみ使用できます。 キャプション機能と高密度キャプション機能から結果を取得するには、これらのリージョンのいずれかに配置された Vision リソースを使う必要があります。

これらのリージョンの外部の Vision リソースを使って画像キャプションを生成する必要がある場合は、すべての Azure AI Vision リージョンで利用できる Image Analysis 3.2 を使ってください。

Vision Studio を使用して、ブラウザーですばやく簡単に画像キャプションの機能を試すことができます。

性別に依存しないキャプション

キャプションには、性別の用語 ("man"、"woman"、"boy"、"girl") が既定で含まれています。 結果でこれらの用語を "person" に置き換えて、性別に依存しないキャプションを受け取ることができります。 これを行うには、要求 URL でオプションの API 要求パラメーター gender-neutral-captiontrue に設定します。

キャプションと高密度キャプションの例

次の JSON 応答は、視覚的特徴に基づいてサンプル画像を説明するときに、Analysis 4.0 API から返される内容を示したものです。

Photo of a man pointing at a screen

"captions": [
    {
        "text": "a man pointing at a screen",
        "confidence": 0.4891590476036072
    }
]

API の使用

画像キャプション作成機能は、Analyze Image API の一部です。 Captionfeatures クエリ パラメーターに追加します。 次に、完全な JSON 応答が得られたら、"captionResult" セクションのコンテンツの文字列を解析します。

次の手順