Wykrywanie obiektów (wersja 4.0)

Artykuł
01/23/2024

Wykrywanie obiektów jest podobne do tagowania, ale interfejs API zwraca współrzędne pola ograniczenia (w pikselach) dla każdego obiektu znalezionego na obrazie. Jeśli na przykład obraz zawiera psa, kota i osobę, operacja wykrywania obiektów wyświetli listę tych obiektów ze współrzędnymi na obrazie. Za pomocą tej funkcji można przetwarzać relacje między obiektami na obrazie. Pozwala również określić, czy na obrazie istnieje wiele wystąpień tego samego obiektu.

Funkcja wykrywania obiektów stosuje tagi na podstawie obiektów lub elementów żyjących zidentyfikowanych na obrazie. Nie ma formalnej relacji między taksonomią tagowania a taksonomią wykrywania obiektów. Na poziomie koncepcyjnym funkcja wykrywania obiektów znajduje tylko obiekty i elementy żywe, podczas gdy funkcja tagu może również zawierać terminy kontekstowe, takie jak "wewnątrz", które nie mogą być zlokalizowane z polami ograniczenia.

Wypróbuj możliwości wykrywania obiektów szybko i łatwo w przeglądarce przy użyciu programu Vision Studio.

Wypróbuj program Vision Studio

Napiwek

Możesz użyć funkcji wykrywania obiektów za pośrednictwem usługi Azure OpenAI . Model GPT-4 Turbo with Vision umożliwia rozmowę z asystentem sztucznej inteligencji, który umożliwia analizowanie udostępnianych obrazów, a opcja Ulepszenia obrazów używa funkcji Analiza obrazów, aby zapewnić pomoc w zakresie sztucznej inteligencji z bardziej szczegółowymi informacjami (czytelnymi lokalizacjami tekstu i obiektów) na temat obrazu. Aby uzyskać więcej informacji, zobacz przewodnik Szybki start GPT-4 Turbo with Vision.

Przykład wykrywania obiektów

Poniższa odpowiedź JSON ilustruje, co interfejs API analizy 4.0 zwraca podczas wykrywania obiektów na przykładowym obrazie.

A woman using a Microsoft Surface device in a kitchen

{
    "metadata":
    {
        "width": 1260,
        "height": 473
    },
    "objectsResult":
    {
        "values":
        [
            {
                "name": "kitchen appliance",
                "confidence": 0.501,
                "boundingBox": {"x":730,"y":66,"w":135,"h":85}
            },
            {
                "name": "computer keyboard",
                "confidence": 0.51,
                "boundingBox": {"x":523,"y":377,"w":185,"h":46}
            },
            {
                "name": "Laptop",
                "confidence": 0.85,
                "boundingBox": {"x":471,"y":218,"w":289,"h":226}
            },
            {
                "name": "person",
                "confidence": 0.855,
                "boundingBox": {"x":654,"y":0,"w":584,"h":473}
            }
        ]
    }
}

Ograniczenia

Ważne jest, aby pamiętać o ograniczeniach wykrywania obiektów, dzięki czemu można uniknąć lub ograniczyć skutki fałszywie ujemnych (nieodebranych obiektów) i ograniczonych szczegółów.

Obiekty zazwyczaj nie są wykrywane, jeśli są małe (mniej niż 5% obrazu).
Obiekty zazwyczaj nie są wykrywane, jeśli są ułożone ściśle ze sobą (na przykład stos płyt).
Obiekty nie są rozróżniane na podstawie nazw marek lub produktów (na przykład różne rodzaje napojów gazowanych na półce sklepowej). Można jednak uzyskać informacje o marce z obrazu przy użyciu funkcji wykrywania marki.

Używanie interfejsu API

Funkcja wykrywania obiektów jest częścią interfejsu API analizowania obrazu . Ten interfejs API można wywołać przy użyciu interfejsu REST. Uwzględnij Objectsparametr zapytania funkcji . Następnie po otrzymaniu pełnej odpowiedzi JSON przeanalizuj ciąg zawartości "objects" sekcji.

Następne kroki

Wywoływanie interfejsu API analizowania obrazu

Wykrywanie obiektów (wersja 4.0)

Przykład wykrywania obiektów

Ograniczenia

Używanie interfejsu API

Następne kroki

Dodatkowe zasoby