Обнаружение объектов (версия 4.0)

Статья
01/19/2024

Обнаружение объекта похоже на добавление тегов, но в этом случае API возвращает координаты (в пикселях) прямоугольника, ограничивающего каждый найденный на изображении объект. Например, если изображение содержит собаку, кота и человека, операция обнаружения объектов будет перечислять эти объекты с их координатами на изображении. Эту функциональность можно использовать, чтобы обрабатывать отношения между объектами на изображении. Кроме того, она позволяет определить, присутствуют ли на изображении несколько экземпляров одного объекта.

Функция обнаружения объектов применяет теги на основе объектов или живых объектов, определенных на изображении. Между таксономией тегов и таксономией обнаружения объектов не существует формальных связей. На концептуальном уровне функция обнаружения объектов находит только объекты и живые вещи, в то время как функция тега также может включать контекстные термины, такие как "помещение", которые нельзя локализовать с ограничивающими прямоугольниками.

Быстро и легко опробуйте возможности обнаружения объектов в браузере с помощью Vision Studio.

Попробовать Vision Studio

Совет

Функцию обнаружения объектов можно использовать с помощью службы Azure OpenAI . GPT-4 Turbo с моделью визуального распознавания позволяет общаться с помощник искусственного интеллекта, которые могут анализировать общие изображения, и параметр "Улучшение зрения" использует анализ изображений для предоставления помощи ИИ с дополнительными сведениями (читаемым текстом и объектами) о изображении. Дополнительные сведения см. в кратком руководстве по GPT-4 Turbo с vision.

Пример обнаружения объектов

В следующем ответе JSON показано, что API Analysis 4.0 возвращается при обнаружении объектов в примере изображения.

A woman using a Microsoft Surface device in a kitchen

{
    "metadata":
    {
        "width": 1260,
        "height": 473
    },
    "objectsResult":
    {
        "values":
        [
            {
                "name": "kitchen appliance",
                "confidence": 0.501,
                "boundingBox": {"x":730,"y":66,"w":135,"h":85}
            },
            {
                "name": "computer keyboard",
                "confidence": 0.51,
                "boundingBox": {"x":523,"y":377,"w":185,"h":46}
            },
            {
                "name": "Laptop",
                "confidence": 0.85,
                "boundingBox": {"x":471,"y":218,"w":289,"h":226}
            },
            {
                "name": "person",
                "confidence": 0.855,
                "boundingBox": {"x":654,"y":0,"w":584,"h":473}
            }
        ]
    }
}

Ограничения

Важно учесть ограничения функции обнаружения объектов, чтобы избежать влияния (или уменьшить его) ложных отрицательных результатов (пропущенных объектов) и ограниченных сведений.

Объекты обычно не распознаются, если они являются маленькими (составляют менее 5 % изображения).
Объекты обычно не распознаются, если они располагаются очень близко друг к другу (например, стопка тарелок).
Объекты не различаются по торговой марке или названию (например, различные виды соды на магазинной полке). Тем не менее можно получить сведения о торговых марках на изображении с помощью функции обнаружения торговых марок.

Использование API

Функция обнаружения объектов является частью API анализа изображений. Этот API можно вызвать с помощью REST. Включите Objects в параметр запроса функций . Затем, когда вы получите полный ответ JSON, анализирует строку для содержимого "objects" раздела.

Следующие шаги

Вызов API анализа изображений

Обнаружение объектов (версия 4.0)

Пример обнаружения объектов

Ограничения

Использование API

Следующие шаги

Дополнительные ресурсы