Что такое анализ изображений?

Служба анализа изображений "Компьютерное зрение" может извлекать разнообразную визуальную информацию из изображений. Например, служба может определить, есть ли на изображении содержимое для взрослых, конкретные торговые марки или объекты, или найти человеческие лица.

Последняя версия анализа изображений 4.0, которая теперь находится в общедоступной предварительной версии, имеет новые функции, такие как синхронное распознавание текста и обнаружение людей. Мы рекомендуем использовать эту версию в будущем.

Вы можете использовать Анализ изображений с помощью пакета SDK для клиентской библиотеки или посредством прямого вызова REST API. Чтобы приступить к работе, ознакомьтесь с этим руководством.

Вы также можете быстро и легко опробовать возможности Анализа изображений в браузере с помощью Vision Studio.

Эта документация включает статьи следующих видов:

  • Краткие руководства — пошаговые инструкции, которые помогут вам вызвать службу и быстро получить результат.
  • Практические руководства — содержат инструкции для более специфического или специализированного использования службы.
  • Тематические статьи — подробно описывают функциональность и возможности службы.
  • Учебники — расширенные руководства, которые описывают использование службы в качестве компонента бизнес-решений.

Для более структурированного подхода следуйте модулю Обучения для анализа изображений.

Функции анализа изображений

Вы можете проанализировать изображения, чтобы получить сведения о визуальных компонентах и характеристиках. API анализа изображений предоставляет все функции в следующей таблице. Чтобы приступить к работе, ознакомьтесь с этим руководством.

Извлечение текста из изображений (предварительная версия)

Предварительная версия анализа изображений версии 4.0 предоставляет возможность извлечения текста из изображений. По сравнению с асинхронной Компьютерное зрение общедоступной версии 3.2 для чтения новая версия предлагает знакомую подсистему распознавания текста считывания в унифицированном синхронном API с улучшенной производительностью, что упрощает получение всех аналитических сведений об изображениях, включая OCR, в одной операции API. Извлечение текста из изображений

Обнаружение людей на изображениях (предварительная версия)

Предварительная версия анализа изображений версии 4.0 позволяет обнаруживать людей, появляющихся на изображениях. Возвращаются координаты ограничивающего прямоугольника каждого обнаруженного человека вместе с оценкой достоверности. Обнаружение Люди

Добавление тегов к визуальным компонентам

Определяйте визуальные компоненты на изображении и добавляйте к ним теги из набора тысяч распознаваемых объектов, живых существ, пейзажей и действий. В случаях, когда теги могут быть неоднозначными или не общеизвестными, в ответ API входят подсказки, уточняющие содержимое тега. Добавление тегов не ограничивается основным предметом, например человеком на переднем плане, но также включает параметр (внутри помещения или снаружи), мебель, инструменты, растения, животных, аксессуары, гаджеты и т. д. Добавление тегов к визуальным компонентам

Изображение скейтбордиста со списком тегов справа

Обнаружение объектов

Обнаружение объекта похоже на добавление тегов, но API возвращает координаты ограничивающего прямоугольника для каждого примененного тега. Например, если на изображении есть собака, кот и человек, операция определения отобразит список этих объектов с их координатами на изображении. Эту функциональность можно использовать, чтобы обрабатывать дальнейшие отношения между объектами изображения. Это также позволяет определить множество экземпляров одного тега на изображении. Обнаружение объектов

Изображение офиса с прямоугольником вокруг ноутбука

Обнаружение торговых марок

Определяет торговые марки в изображениях или видео из базы данных тысяч глобальных логотипов. Вы можете использовать эту функцию, например, чтобы узнать, какие торговые марки наиболее популярны в социальных сетях или наиболее распространены при размещении медиа-продуктов. Обнаружение торговых марок

Классификация изображения

Определение и классификация всего изображения с помощью классификации категорий с родительскими или дочерними наследственными иерархиями. Категории можно использовать отдельно или с новыми моделями добавления тегов. В настоящее время английский язык является единственным поддерживаемым языком для добавления тегов и классификации изображений. Классификация изображения

Описание изображения

Создание описания всего изображения на удобочитаемом языке с использованием полных предложений. Алгоритмы API компьютерного зрения создают различные описания в зависимости от объектов, определенных на изображении. Каждое описание оценивается и получает оценку достоверности. Затем возвращается список, упорядоченный от наибольшей оценки достоверности к наименьшей. Описание изображения

Изображение коров с простым описанием справа

Распознавание лиц

Обнаружение лиц на изображении, а также предоставление сведений о каждом обнаруженном лице. API компьютерного зрения возвращает координаты, прямоугольник, пол и возраст для каждого обнаруженного лица. Распознавание лиц

Для этих целей также можно использовать отдельный API Распознавания лиц . Его можно использовать для более глубокого анализа, например для идентификации по лицу и определении позы.

Обнаружение типов изображения

Выявление характеристик изображения, например, является ли изображение графическим или же это иллюстрация. Обнаружение типов изображения

Обнаружение содержимого, связанного с определенными предметными областями

Использование модели предметной области для обнаружения и идентификации отдельного предметного содержимого в изображении, например знаменитостей и достопримечательностей. К примеру, если на изображении люди, API компьютерного зрения может использовать модель предметной области для знаменитостей, чтобы определить, являются ли люди, обнаруженные на изображении, знаменитостями. Обнаружение содержимого, связанного с определенными сферами

Обнаружение цветовой схемы

Анализ использования цвета в изображении. Компьютерное зрение может определить, является ли изображение черно-белым или цветным, а для цветных изображений может определить основные и акцентные цвета&. Обнаружение цветовой схемы

Получение интересующей области / интеллектуальный урожай

Проанализируйте содержимое изображения, чтобы получить координаты интересующей области , которая соответствует заданному соотношению сторон. Компьютерное зрение возвращает координаты ограничивающего прямоугольника области, чтобы вызывающее приложение ранее изменяло исходное изображение. Создание эскизов

Изображение человека на горе с обрезанными версиями справа

Модерация содержимого на изображениях

API компьютерного зрения можно использовать для обнаружения содержимого для взрослых на изображении и оценки достоверности для различных классификаций. Порог для обозначения содержимого можно настроить в соответствии с предпочтением пользователя по степени принятия материалов данного характера.

Требования к образам

Анализ изображений работает на изображениях, которые отвечают следующим требованиям:

  • Изображение должно быть представлено в формате JPEG, PNG, GIF или BMP.
  • Размер файла изображения должен быть меньше 4 МБ.
  • Размеры изображения должны быть более 50 x 50 пикселей и менее 16 000 x 16 000 пикселей

Конфиденциальность и безопасность данных

Как и в случае со всеми другими Cognitive Services, разработчикам, использующим API компьютерного зрения, следует учитывать политику корпорации Майкрософт касательно клиентских данных. Дополнительные сведения см. на странице о Cognitive Services Центра управления безопасностью Майкрософт.

Дальнейшие действия

Начните работу с Анализом изображений, изучив краткое руководство по предпочтительному языку разработки: