Rilevamento oggetti (versione 4.0)

Il rilevamento degli oggetti è simile all'assegnazione di tag, ma l'API restituisce le coordinate del riquadro delimitatore (in pixel) per ogni oggetto trovato nell'immagine. Ad esempio, se un'immagine contiene un cane, un gatto e una persona, l'operazione di rilevamento degli oggetti elenca tali oggetti con le coordinate nell'immagine. È possibile usare questa funzionalità per elaborare le relazioni tra gli oggetti in un'immagine. Consente inoltre di determinare se sono presenti più istanze dello stesso oggetto in un'immagine.

La funzione di rilevamento degli oggetti applica tag in base agli oggetti o alle cose viventi identificate nell'immagine. Non esiste alcuna relazione formale tra la tassonomia di assegnazione di tag e la tassonomia di rilevamento degli oggetti. A livello concettuale, la funzione di rilevamento degli oggetti trova solo oggetti e cose viventi, mentre la funzione tag può includere anche termini contestuali come "indoor", che non possono essere localizzati con rettangoli delimitatori.

Provare le funzionalità di rilevamento degli oggetti in modo rapido e semplice nel browser usando Vision Studio.

Suggerimento

È possibile usare la funzionalità rilevamento oggetti tramite il servizio OpenAI di Azure. Il modello GPT-4 Turbo with Vision consente di chattare con un assistente di intelligenza artificiale in grado di analizzare le immagini condivise e l'opzione Vision Enhancement usa Analisi immagini per fornire all'intelligenza artificiale altri dettagli (testo leggibile e posizioni degli oggetti) sull'immagine. Per altre informazioni, vedere la guida introduttiva GPT-4 Turbo with Vision.

Esempio di rilevamento di oggetti

La risposta JSON seguente illustra cosa restituisce l'API Analysis 4.0 durante il rilevamento di oggetti nell'immagine di esempio.

A woman using a Microsoft Surface device in a kitchen

{
    "metadata":
    {
        "width": 1260,
        "height": 473
    },
    "objectsResult":
    {
        "values":
        [
            {
                "name": "kitchen appliance",
                "confidence": 0.501,
                "boundingBox": {"x":730,"y":66,"w":135,"h":85}
            },
            {
                "name": "computer keyboard",
                "confidence": 0.51,
                "boundingBox": {"x":523,"y":377,"w":185,"h":46}
            },
            {
                "name": "Laptop",
                "confidence": 0.85,
                "boundingBox": {"x":471,"y":218,"w":289,"h":226}
            },
            {
                "name": "person",
                "confidence": 0.855,
                "boundingBox": {"x":654,"y":0,"w":584,"h":473}
            }
        ]
    }
}

Limiti

È importante notare le limitazioni del rilevamento degli oggetti in modo da evitare o attenuare gli effetti dei falsi negativi (oggetti persi) e dettagli limitati.

  • Gli oggetti in genere non vengono rilevati se sono piccoli (meno del 5% dell'immagine).
  • Gli oggetti in genere non vengono rilevati se sono disposti in modo stretto (ad esempio una pila di lastre).
  • Gli oggetti non vengono differenziati in base alla marca o ai nomi di prodotto (ad esempio, diversi tipi di bibite su uno scaffale di un supermercato). È tuttavia possibile ottenere informazioni sul marchio presente in un'immagine usando la funzionalità per il rilevamento del marchio.

Usare l'API

La funzionalità per il rilevamento di oggetti fa parte dell'API di analisi delle immagini. È possibile chiamare questa API usando REST. Includere Objects nel parametro di query delle funzionalità . Quindi, quando si ottiene la risposta JSON completa, analizzare la stringa per il contenuto della "objects" sezione.

Passaggi successivi