Что такое анализ изображений?

2024-09-29

Служба анализа изображений Azure AI Vision может извлекать из ваших изображений различные визуальные характеристики. Например, служба может определить, есть ли на изображении содержимое для взрослых, конкретные торговые марки или объекты, или найти человеческие лица.

Последняя версия анализа изображений 4.0, которая в настоящее время является общедоступной, имеет новые функции, такие как синхронное обнаружение OCR и людей. Рекомендуем продолжать использовать эту версию.

Вы можете использовать Анализ изображений с помощью пакета SDK для клиентской библиотеки или посредством прямого вызова REST API. Чтобы приступить к работе, ознакомьтесь с быстрым запуском.

Краткое руководство

Вы также можете быстро и легко опробовать возможности Анализа изображений в браузере с помощью Vision Studio.

Попробовать Vision Studio

Эта документация включает статьи следующих видов:

Краткие руководства — пошаговые инструкции, которые помогут вам вызвать службу и быстро получить результат.
Практические руководства — содержат инструкции для более специфического или специализированного использования службы.
Тематические статьи — подробно описывают функциональность и возможности службы.

Для более структурированного подхода следуйте модулю обучения для анализа изображений.

Анализ изображений с помощью службы "Визуальное распознавание ИИ Azure"

Версии анализа изображений

Внимание

Выберите версию API анализа изображений, которая лучше всего соответствует вашим требованиям.

Версия	Доступные возможности	Рекомендация
версия 4.0	Чтение текста, надписи, плотные надписи, теги, обнаружение объектов, люди, интеллектуальная обрезка	Лучшие модели; используйте версию 4.0, если она поддерживает вариант использования.
версия 3.2	Теги, объекты, описания, бренды, лица, тип изображения, цветовая схема, ориентиры, знаменитости, содержимое для взрослых, смарт-обрезка	Более широкий спектр функций; используйте версию 3.2, если вариант использования еще не поддерживается в версии 4.0

Рекомендуется использовать API анализа изображений 4.0, если он поддерживает вариант использования. Используйте версию 3.2, если вариант использования еще не поддерживается 4.0.

Кроме того, вам потребуется использовать версию 3.2, если вы хотите сделать подпись изображений, а ресурс Визуального зрения находится за пределами поддерживаемых регионов Azure. Функция подписи изображений в Анализе изображений 4.0 поддерживается только в определенных регионах Azure. Заголовок изображения в версии 3.2 доступен во всех регионах Azure AI Vision. Смотрите сведения о доступности региона.

Анализ изображения

Вы можете проанализировать изображения, чтобы получить сведения о визуальных компонентах и характеристиках. Все функции в этой таблице предоставляются API анализа изображений. Чтобы приступить к работе, воспользуйтесь кратким руководством.

Имя	Описание	Страница концепции
Настройка модели (только предварительная версия версии 4.0) (не рекомендуется)	Вы можете создавать и обучать пользовательские модели для классификации изображений или обнаружения объектов. Приведите собственные изображения, пометьте их настраиваемыми тегами, а анализ изображений обучает модель, настраиваемую для вашего варианта использования.	Настройка модели
Чтение текста из изображений (только версия 4.0)	Предварительная версия 4.0 анализа изображений позволяет извлекать доступный для чтения текст из изображений. По сравнению с асинхронным API для чтения 3.2 в службе компьютерного зрения, новая версия предлагает знакомый механизм OCR в едином API с улучшенной производительностью, что упрощает получение OCR вместе с другой аналитической информацией в одном вызове API.	OCR для изображений
Обнаружение людей в изображениях (только версия 4.0)	Версия 4.0 анализа изображений позволяет обнаруживать людей, отображаемых на изображениях. Координаты ограничивающего прямоугольника каждого обнаруженного человека предоставляются вместе с оценкой достоверности.	Обнаружение людей
Создание подписей изображений	Создайте подпись изображения на удобочитаемом языке, используя полные предложения. алгоритмы Компьютерное зрение создают подписи на основе объектов, определенных на изображении. Модель заголовка изображений версии 4.0 является более расширенной реализацией и работает с более широким диапазоном входных изображений. Он доступен только в определенных географических регионах. Смотрите сведения о доступности региона. Версия 4.0 также позволяет использовать плотную подпись, которая создает подробные субтитры для отдельных объектов, найденных на изображении. API возвращает координаты ограничивающего поля (в пикселях) каждого объекта, найденного на изображении, а также подпись. Эту функцию можно использовать для создания описания отдельных частей изображения.	Создание подписей изображений (версия 3.2) (версия 4.0)
Обнаружение объектов	Обнаружение объекта похоже на добавление тегов, но API возвращает координаты ограничивающего прямоугольника для каждого примененного тега. Например, если изображение содержит собаку, кота и человека, операция обнаружения перечисляет эти объекты вместе с их координатами на изображении. Эту функциональность можно использовать, чтобы обрабатывать дальнейшие отношения между объектами изображения. Это также позволяет определить множество экземпляров одного тега на изображении.	Обнаружение объектов (версия 3.2) (версия 4.0)
Добавление тегов к визуальным компонентам	Определяйте визуальные компоненты на изображении и добавляйте к ним теги из набора тысяч распознаваемых объектов, живых существ, пейзажей и действий. В случаях, когда теги могут быть неоднозначными или не общеизвестными, в ответ API входят подсказки, уточняющие содержимое тега. Добавление тегов не ограничивается основным предметом, например человеком на переднем плане, но также включает параметр (внутри помещения или снаружи), мебель, инструменты, растения, животных, аксессуары, гаджеты и т. д.	Визуальные функции тегов (версия 3.2) (версия 4.0)
Получить область интереса / интеллектуальную обрезку	Проанализируйте содержимое изображения, чтобы вернуть координаты интересующей области , которая соответствует указанному пропорции. Компьютерное зрение возвращает координаты ограничивающей рамки области, поэтому вызывающее приложение может изменить исходное изображение при необходимости. Модель интеллектуальной обрезки версии 4.0 является более расширенной реализацией и работает с более широким диапазоном входных изображений. Он доступен только в определенных географических регионах. Смотрите сведения о доступности региона.	Создание эскиза (версия 3.2) (предварительная версия версии 4.0)
Обнаружение брендов (только для версии 3.2)	Определяет торговые марки в изображениях или видео из базы данных тысяч глобальных логотипов. Вы можете использовать эту функцию, например, чтобы узнать, какие торговые марки наиболее популярны в социальных сетях или наиболее распространены при размещении медиа-продуктов.	Обнаружение торговых марок
Классификация изображения (только для версии 3.2)	Определение и классификация всего изображения с помощью классификации категорий с родительскими или дочерними наследственными иерархиями. Категории могут использоваться отдельно или с новыми моделями добавления тегов. В настоящее время единственным поддерживаемым языком для добавления тегов и классификации изображений является английский.	Классификация изображения
Обнаружение лиц (только для версии 3.2)	Обнаружение лиц на изображении, а также предоставление сведений о каждом обнаруженном лице. Azure AI Vision возвращает координаты, прямоугольник, пол и возраст для каждого обнаруженного лица. Для этих целей также можно использовать отдельный API Распознавания лиц . Его можно использовать для более глубокого анализа, например для идентификации по лицу и определении позы.	Распознавание лиц
Обнаружение типов изображений (только версия 3.2)	Определение характеристик изображения, таких как то, является ли изображение линейным рисунком или какова вероятность того, что это картинка-клипарт.	Обнаружение типов изображения
Обнаружение содержимого для конкретного домена (только версия 3.2)	Использование модели предметной области для обнаружения и идентификации отдельного предметного содержимого в изображении, например знаменитостей и достопримечательностей. Например, если изображение содержит людей, Azure AI Vision может использовать модель для распознавания знаменитостей, чтобы определить, являются ли обнаруженные люди известными личностями.	Обнаружение содержимого, связанного с определенными сферами
Обнаружение цветовой схемы (только версия 3.2)	Анализ использования цвета в изображении. Визуальное распознавание искусственного интеллекта Azure может определить, является ли изображение черным и белым или цветным, а для цветовых изображений и определять доминирующие и акцентные цвета.	Обнаружение цветовой схемы
Умеренное содержимое в изображениях (только версия 3.2)	Azure AI Vision позволяет обнаруживать содержимое взрослых в изображении и возвращать оценки достоверности для различных классификаций. Порог для отметки содержания может быть установлен на скользящей шкале, чтобы учитывать ваши предпочтения.	Обнаружение содержимого для взрослых

Распознавание продуктов (только предварительная версия версии 4.0) (не рекомендуется)

Внимание

Эта функция теперь устарела. 31 марта 2025 г. предварительная версия API для пользовательской классификации изображений, определения пользовательских объектов и распознавания продуктов в Azure AI Image Analysis 4.0 будет закрыта. После этой даты вызовы API к этим службам завершаются сбоем.

Чтобы обеспечить плавную работу ваших моделей, перейдите на Azure AI Custom Vision, которое теперь доступно для всех. Пользовательское визуальное распознавание предоставляет аналогичные функциональные возможности к этим устаревающим функциям.

API распознавания продуктов позволяют анализировать фотографии полков в розничном магазине. Вы можете обнаружить наличие или отсутствие продуктов и получить их координаты ограничивающего прямоугольника. Используйте его в сочетании с настройкой модели для обучения модели для идентификации конкретных продуктов. Вы также можете сравнить результаты распознавания продуктов с документом планограммы магазина.

Распознавание продуктов

Многомодальные внедрения (только версия 4.0)

API многомодальные встраивания позволяют векторизацию изображений и текстовых запросов. Они преобразуют изображения в координаты в многомерном векторном пространстве. Затем входящие текстовые запросы также можно преобразовать в векторы, а изображения можно сопоставить с текстом на основе семантической близости. Это позволяет пользователю выполнять поиск по набору изображений с помощью текста без необходимости использовать теги изображений или другие метаданные. Семантическая близость часто дает лучшие результаты в поиске.

2024-02-01 API включает многоязычную модель, которая поддерживает поиск текста на 102 языках. Исходная модель только на английском языке по-прежнему доступна, но ее нельзя объединить с новой моделью в том же индексе поиска. Если вы векторизовали текст и изображения с помощью модели только на английском языке, эти векторы не будут совместимы с многоязычными текстовыми и векторами изображений.

Эти API доступны только в определенных географических регионах. Смотрите сведения о доступности региона.

Многомодальные внедрения

Удаление фона (только предварительная версия версии 4.0)

Внимание

Эта функция теперь устарела. 31 марта 2025 г. API анализа изображений Azure AI Image Analysis 4.0 для сегментации и служба удаления фона будут прекращены. Все запросы к этой службе будут выдавать ошибку после этой даты.

Функция сегментации модели с открытым исходным кодом Флоренция 2 может соответствовать вашим потребностям. Она возвращает альфа-карту, которая помечает разницу между передним планом и фоном, но не изменяет исходное изображение, чтобы удалить фон. Установите модель Флоренции 2 и попробуйте использовать ее регион для функции сегментации.

Для полноценного удаления фона используйте сторонние программы, такие как BiRefNet.

Ограничения сервиса

Анализ изображений работает на изображениях, которые отвечают следующим требованиям:

Изображение должно быть в формате JPEG, PNG, GIF, BMP, WEBP, ICO, TIFF или MPO
Размер файла изображения должен быть меньше 20 МБ
Размеры изображения должны быть более 50 x 50 пикселей и менее 16 000 x 16 000 пикселей

Совет

Требования к входным данным для многомодальных внедрения отличаются и перечислены в многомодальных внедрениях.

Поддержка языков

Различные функции анализа изображений доступны на разных языках. Посмотрите страницу Поддержка языка.

Доступность по регионам

Чтобы использовать API анализа изображений, необходимо создать ресурс Azure AI Vision в поддерживаемом регионе. Функции анализа изображений доступны в следующих регионах:

Область/регион	Анализ изображения (4.0 минус субтитры)	Анализ изображения (включая 4.0 субтитры)	Распознавание продуктов	Многомодальные внедрения
Восточная часть США	✅	✅	✅	✅
Западная часть США	✅	✅		✅
Западная часть США 2	✅		✅	✅
Центральная Франция	✅	✅		✅
Северная Европа	✅	✅		✅
Западная Европа	✅	✅		✅
Центральная Швеция	✅			✅
Северная Швейцария	✅			✅
Восточная Австралия	✅			✅
Юго-Восточная Азия	✅	✅		✅
Восточная Азия	✅	✅
Республика Корея, центральный регион	✅	✅		✅
Восточная Япония	✅			✅

Конфиденциальность и безопасность данных

Как и во всех службах ИИ Azure, разработчики, использующие службу "Визуальное распознавание ИИ Azure", должны учитывать политики Майкрософт по данным клиентов. Дополнительные сведения см. на странице служб ИИ Azure в Центре управления безопасностью Майкрософт.

Следующие шаги

Приступая к работе с анализом изображений, выполните краткое руководство по выбранному языку разработки и версии API:

Поделиться через

Что такое анализ изображений?

Версии анализа изображений

Анализ изображения

Распознавание продуктов (только предварительная версия версии 4.0) (не рекомендуется)

Многомодальные внедрения (только версия 4.0)

Удаление фона (только предварительная версия версии 4.0)

Ограничения сервиса

Требования к входным данным

Поддержка языков

Доступность по регионам

Конфиденциальность и безопасность данных

Следующие шаги

Обратная связь

Дополнительные ресурсы