Типы служб API визуального распознавания
Azure Cognitive Service для визуального распознавания — это одна из самых широких категорий в Cognitive Services. Api можно использовать для включения функций визуального распознавания, таких как анализ изображений, обнаружение лиц, пространственный анализ и оптическое распознавание символов (OCR) в приложениях, даже если у вас есть ограниченные знания о машинном обучении.
Службы
Ниже приведены некоторые широкие категории API визуального распознавания:
- Компьютерное зрение предоставляет расширенные алгоритмы, обрабатывающие изображения и возвращающие информацию на основе визуальных функций, которые вам нужны. Она предоставляет четыре службы: OCR, служба распознавания лиц, анализ изображений и пространственный анализ. Распознаватель документов — это расширенная версия OCR.
- Пользовательское визуальное распознавание — это служба распознавания изображений, которую можно использовать для создания, развертывания и улучшения собственных моделей идентификаторов изображений.
- Служба распознавания лиц предоставляет алгоритмы ИИ, которые определяют, распознают и анализируют человеческие лица на изображениях.
Выбор службы
Следующая блок-схема поможет выбрать службу визуального распознавания для конкретного варианта использования:
Распространенные варианты использования
Компьютерное зрение
- Описание изображения. Анализ изображения, оценка обнаруженных объектов и создание удобочитаемой фразы или предложения, описывающей изображение.
- Функции визуального элемента тега. Примените теги, основанные на наборе тысяч распознаваемых объектов.
- классифицировать изображение; Классифицируйте изображения на основе их содержимого.
- Реализуйте OCR. Обнаружение печатного и рукописного текста в изображениях.
- Обнаружение типов изображений. Например, определите изображения клипов или рисунки линий.
- Обнаружение цветовой схемы. Определение доминирующего переднего плана, фона и доминирующих и акцентных цветов в изображении.
- Создание эскизов. Создание небольших версий изображений.
- Умеренное содержимое. Определите изображения, содержащие содержимое взрослых или изображающие горькие сцены.
- Обнаружение содержимого для конкретного домена. Используйте две специализированные модели предметной области:
- Знаменитости. Определите тысячи известных знаменитостей из спорта, развлечений и бизнес-доменов.
- Достопримечательности. Определите известные достопримечательности, такие как Тадж Махал и Статуя Свободы.
- Обнаружение объектов. Определите общие объекты и верните координаты ограничивающего поля.
- Обнаружение брендов. Определите логотипы из существующей базы данных тысяч глобально распознанных логотипов продукта.
- Обнаружение лиц. Обнаружение и анализ человеческих лиц на изображении. Вы можете определить возраст субъекта и вернуть ограничивающий прямоугольник, указывающий расположения лиц. Возможности анализа лиц службы Компьютерное зрение — это подмножество функций, предоставляемых выделенной службой распознавания лиц.
Пользовательское визуальное распознавание
- Классификация изображений. Прогнозирование категории или класса на основе набора входных данных, которые называются функциями. Вычислите оценку вероятности для каждого возможного класса и возвращает метку, указывающую класс, к которому, скорее всего, принадлежит объект. Для использования этой модели требуются данные, состоящие из функций и их меток.
- Обнаружение объектов. Получение координат объекта в изображении. Для использования этой модели требуются данные, состоящие из функций и их меток.
Службы распознавания лиц
- Обнаружение лиц. Определите области изображения, содержащего человеческое лицо, обычно возвращая ограничивающие координаты прямоугольника, которые образуют прямоугольник вокруг лица.
- Анализ лиц. Возвращать информацию, например ориентиры лица (нос, глаза, брови, губы и многое другое). Эти ориентиры лица можно использовать в качестве функций для обучения модели машинного обучения, которая может выводить информацию о людях, таких как их воспринимаемое возраст или эмоциональное состояние.
- Распознавание лиц. Обучить модель машинного обучения, чтобы определить известных людей из их функций лица.
Соавторы
Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участник.
Основные авторы:
- Эшиш Чахуан | Старший архитектор облачных решений
- Крути Мехта | Старший инженер Быстрого отслеживания Azure
Другие участник:
- Мик Альбертс | Технический писатель
- Брэндон Ковен | Старший архитектор облачных решений
- Оскар Шимабукуро | Старший архитектор облачных решений
- Манджит Сингх | Программист
- Кристина Скарпатиотаки | Старший архитектор облачных решений
- Натан Widdup | Старший инженер Быстрого отслеживания Azure
Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.
Следующие шаги
- Что собой представляет Компьютерное зрение
- Запись блога API визуального распознавания
- путь Обучение. Создание решения Распознавание речи с помощью Azure Cognitive Services
- путь Обучение. Подготовка Azure Cognitive Services и управление ими
- Путь Обучение: изучение компьютерного зрения
- Обучение пути. Создание решений компьютерного зрения с помощью Azure Cognitive Services
- путь Обучение. Создание решения распознавания изображений с помощью Azure IoT Edge и Azure Cognitive Services
Связанные ресурсы
Обратная связь
https://aka.ms/ContentUserFeedback.
Ожидается в ближайшее время: в течение 2024 года мы постепенно откажемся от GitHub Issues как механизма обратной связи для контента и заменим его новой системой обратной связи. Дополнительные сведения см. в разделеОтправить и просмотреть отзыв по