Detección de objetos (versión 4.0)

La detección de objetos es similar al etiquetado, pero la API devuelve las coordenadas del rectángulo (en píxeles) que delimita cada objeto encontrado en la imagen. Por ejemplo, si una imagen contiene un perro, un gato y una persona, la operación de detección de objetos mostrará estos objetos con sus coordenadas en la imagen. Puede usar esta funcionalidad para procesar las relaciones entre los objetos de una imagen. También permite determinar si hay varias instancias del mismo objeto en una imagen.

La función de detección de objetos aplica etiquetas basadas en los objetos o seres vivos identificados en la imagen. No hay ninguna relación formal entre la taxonomía de etiquetado y la taxonomía de detección de objetos. A nivel conceptual, la función de detección de objetos solo encuentra objetos y seres vivos, mientras que la función de etiquetas también puede incluir términos contextuales como "interior", que no pueden localizarse con cuadros de límite.

Pruebe las funcionalidades de detección de objetos de forma rápida y sencilla en el explorador mediante Vision Studio.

Sugerencia

Puede usar la característica de detección de objetos mediante el servicio Azure OpenAI. El modelo GPT-4 Turbo con Vision le permite chatear con un asistente de IA que puede analizar las imágenes que comparte, y la opción de mejora de la visión usa Análisis de imágenes para proporcionar a la inteligencia artificial más detalles (texto legible y ubicaciones de objetos) sobre la imagen. Para más información, consulte el Inicio rápido de GPT-4 Turbo with Vision.

Ejemplo de detección de objetos

En la siguiente respuesta JSON, se ilustra lo que devuelve la API de Análisis 4.0 cuando se detectan los objetos de la imagen de ejemplo.

A woman using a Microsoft Surface device in a kitchen

{
    "metadata":
    {
        "width": 1260,
        "height": 473
    },
    "objectsResult":
    {
        "values":
        [
            {
                "name": "kitchen appliance",
                "confidence": 0.501,
                "boundingBox": {"x":730,"y":66,"w":135,"h":85}
            },
            {
                "name": "computer keyboard",
                "confidence": 0.51,
                "boundingBox": {"x":523,"y":377,"w":185,"h":46}
            },
            {
                "name": "Laptop",
                "confidence": 0.85,
                "boundingBox": {"x":471,"y":218,"w":289,"h":226}
            },
            {
                "name": "person",
                "confidence": 0.855,
                "boundingBox": {"x":654,"y":0,"w":584,"h":473}
            }
        ]
    }
}

Limitaciones

Es importante tener en cuenta las limitaciones de la detección de objetos para que pueda evitar o mitigar los efectos de los falsos negativos (objetos que faltan) y los detalles limitados.

  • Por lo general, los objetos no se detectan si son muy pequeños (menores del 5 % de la imagen).
  • Los objetos no se suelen detectar si están cerca (en una pila de platos, por ejemplo).
  • Los objetos no se diferencian por la marca ni los nombres de productos (tipos diferentes de los refrescos en una estantería de un almacén, por ejemplo). Sin embargo, puede obtener información de la marca de una imagen mediante la característica de detección de la marca.

Uso de la API

La característica de detección de objetos forma parte de la API de análisis de imágenes. Puede llamar a esta API mediante REST. Incluya Objects en el parámetro de consulta característica. Después, cuando obtenga la respuesta JSON completa, analice la cadena con el contenido de la sección "objects".

Pasos siguientes