Типы служб API визуального распознавания

Статья
02/09/2024

Azure Cognitive Service для визуального распознавания — это одна из самых широких категорий в Cognitive Services. Api можно использовать для включения функций визуального распознавания, таких как анализ изображений, обнаружение лиц, пространственный анализ и оптическое распознавание символов (OCR) в приложениях, даже если у вас есть ограниченные знания о машинном обучении.

Службы

Ниже приведены некоторые широкие категории API визуального распознавания:

Компьютерное зрение предоставляет расширенные алгоритмы, обрабатывающие изображения и возвращающие информацию на основе визуальных функций, которые вам нужны. Она предоставляет четыре службы: OCR, служба распознавания лиц, анализ изображений и пространственный анализ. Распознаватель документов — это расширенная версия OCR.
Пользовательское визуальное распознавание — это служба распознавания изображений, которую можно использовать для создания, развертывания и улучшения собственных моделей идентификаторов изображений.
Служба распознавания лиц предоставляет алгоритмы ИИ, которые определяют, распознают и анализируют человеческие лица на изображениях.

Выбор службы

Следующая блок-схема поможет выбрать службу визуального распознавания для конкретного варианта использования:

Распространенные варианты использования

Компьютерное зрение
- Описание изображения. Анализ изображения, оценка обнаруженных объектов и создание удобочитаемой фразы или предложения, описывающей изображение.
- Функции визуального элемента тега. Примените теги, основанные на наборе тысяч распознаваемых объектов.
- классифицировать изображение; Классифицируйте изображения на основе их содержимого.
- Реализуйте OCR. Обнаружение печатного и рукописного текста в изображениях.
- Обнаружение типов изображений. Например, определите изображения клипов или рисунки линий.
- Обнаружение цветовой схемы. Определение доминирующего переднего плана, фона и доминирующих и акцентных цветов в изображении.
- Создание эскизов. Создание небольших версий изображений.
- Умеренное содержимое. Определите изображения, содержащие содержимое взрослых или изображающие горькие сцены.
- Обнаружение содержимого для конкретного домена. Используйте две специализированные модели предметной области:
  - Знаменитости. Определите тысячи известных знаменитостей из спорта, развлечений и бизнес-доменов.
  - Достопримечательности. Определите известные достопримечательности, такие как Тадж Махал и Статуя Свободы.
- Обнаружение объектов. Определите общие объекты и верните координаты ограничивающего поля.
- Обнаружение брендов. Определите логотипы из существующей базы данных тысяч глобально распознанных логотипов продукта.
- Обнаружение лиц. Обнаружение и анализ человеческих лиц на изображении. Вы можете определить возраст субъекта и вернуть ограничивающий прямоугольник, указывающий расположения лиц. Возможности анализа лиц службы Компьютерное зрение — это подмножество функций, предоставляемых выделенной службой распознавания лиц.
Пользовательское визуальное распознавание
- Классификация изображений. Прогнозирование категории или класса на основе набора входных данных, которые называются функциями. Вычислите оценку вероятности для каждого возможного класса и возвращает метку, указывающую класс, к которому, скорее всего, принадлежит объект. Для использования этой модели требуются данные, состоящие из функций и их меток.
- Обнаружение объектов. Получение координат объекта в изображении. Для использования этой модели требуются данные, состоящие из функций и их меток.
Службы распознавания лиц
- Обнаружение лиц. Определите области изображения, содержащего человеческое лицо, обычно возвращая ограничивающие координаты прямоугольника, которые образуют прямоугольник вокруг лица.
- Анализ лиц. Возвращать информацию, например ориентиры лица (нос, глаза, брови, губы и многое другое). Эти ориентиры лица можно использовать в качестве функций для обучения модели машинного обучения, которая может выводить информацию о людях, таких как их воспринимаемое возраст или эмоциональное состояние.
- Распознавание лиц. Обучить модель машинного обучения, чтобы определить известных людей из их функций лица.

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участник.

Основные авторы:

Эшиш Чахуан | Старший архитектор облачных решений
Крути Мехта | Старший инженер Быстрого отслеживания Azure

Другие участник:

Мик Альбертс | Технический писатель
Брэндон Ковен | Старший архитектор облачных решений
Оскар Шимабукуро | Старший архитектор облачных решений
Манджит Сингх | Программист
Кристина Скарпатиотаки | Старший архитектор облачных решений
Натан Widdup | Старший инженер Быстрого отслеживания Azure

Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.

Поделиться через

Типы служб API визуального распознавания

Службы

Выбор службы

Распространенные варианты использования

Соавторы

Следующие шаги

Обратная связь

Обратная связь

Дополнительные ресурсы

Поделиться через

Типы служб API визуального распознавания

Службы

Выбор службы

Распространенные варианты использования

Соавторы

Следующие шаги

Связанные ресурсы

Обратная связь

Обратная связь

Дополнительные ресурсы