オブジェクト検出 (バージョン 4.0)

オブジェクトの検出はタグ付けに似ていますが、API で返されるのは、イメージに検出された各オブジェクトの境界ボックスの座標 (ピクセル単位) です。 たとえば犬、猫、人物が画像に含まれている場合、オブジェクト検出操作は、それらのオブジェクトと共にそれに対応する座標をその画像に示します。 この機能を使用すれば、画像に含まれるオブジェクト間の関係を処理することができます。 画像内に同じオブジェクトのインスタンスが複数存在するかどうかも判別できます。

オブジェクト検出機能は、画像内で特定されたオブジェクトや生物に応じてタグを適用します。 タグ付けの分類とオブジェクト検出の分類との間に、正式な関係は存在しません。 概念レベルで言えば、オブジェクト検出機能はオブジェクトや生物を検出するだけであるのに対し、タグ機能では、コンテキスト上の用語 ("indoor" など) も対象となり、それらの位置を境界ボックスで特定することはできません。

Vision Studio を使用して、ブラウザーですばやく簡単にオブジェクト検出の機能を試すことができます。

ヒント

物体検出機能は、Azure OpenAI サービスを通じて使用できます。 GPT-4 Turbo with Vision モデルを使うと、共有する画像を分析できる AI アシスタントとチャットできます。また、Vision Enhancement オプションでは、画像分析を使用して画像に関する詳細 (読み取り可能なテキストとオブジェクトの位置) を AI アシスタントに提供します。 詳細については、GPT-4 Turbo with Vision のクイックスタートに関する記事を参照してください。

オブジェクト検出の例

次の JSON 応答は、Analysis 4.0 API がサンプル画像からオブジェクトを検出するときに返す内容を示しています。

A woman using a Microsoft Surface device in a kitchen

{
    "metadata":
    {
        "width": 1260,
        "height": 473
    },
    "objectsResult":
    {
        "values":
        [
            {
                "name": "kitchen appliance",
                "confidence": 0.501,
                "boundingBox": {"x":730,"y":66,"w":135,"h":85}
            },
            {
                "name": "computer keyboard",
                "confidence": 0.51,
                "boundingBox": {"x":523,"y":377,"w":185,"h":46}
            },
            {
                "name": "Laptop",
                "confidence": 0.85,
                "boundingBox": {"x":471,"y":218,"w":289,"h":226}
            },
            {
                "name": "person",
                "confidence": 0.855,
                "boundingBox": {"x":654,"y":0,"w":584,"h":473}
            }
        ]
    }
}

制限事項

検知漏れ (見落とされたオブジェクト) や詳細の利用制限の影響を回避または軽減できるように、オブジェクト検出の制限事項に注意することが重要です。

  • オブジェクトが小さい (画像の 5 % 未満) 場合、通常、それらのオブジェクトは検出されません。
  • オブジェクトが近くに配置されている場合 (積み重ねられた皿など)、通常、それらのオブジェクトは検出されません。
  • オブジェクトは、ブランド名や製品名 (店の棚にある各種のソーダなど) によって区別されません。 ただし、ブランド検出機能を使用すると画像からブランド情報を取得できます。

API の使用

オブジェクト検出機能は Analyze Image API に含まれています。 この API は REST を使用して呼び出すことができます。 Objectsfeatures クエリ パラメーターに追加します。 次に、完全な JSON 応答が得られたら、"objects" セクションのコンテンツの文字列を解析します。

次の手順