Поделиться через


Типы служб API визуального распознавания

Azure Cognitive Service для визуального распознавания — это одна из самых широких категорий в Cognitive Services. Api можно использовать для включения функций визуального распознавания, таких как анализ изображений, обнаружение лиц, пространственный анализ и оптическое распознавание символов (OCR) в приложениях, даже если у вас есть ограниченные знания о машинном обучении.

Службы

Ниже приведены некоторые широкие категории API визуального распознавания:

  • Компьютерное зрение предоставляет расширенные алгоритмы, обрабатывающие изображения и возвращающие информацию на основе визуальных функций, которые вам нужны. Она предоставляет четыре службы: OCR, служба распознавания лиц, анализ изображений и пространственный анализ. Распознаватель документов — это расширенная версия OCR.
  • Пользовательское визуальное распознавание — это служба распознавания изображений, которую можно использовать для создания, развертывания и улучшения собственных моделей идентификаторов изображений.
  • Служба распознавания лиц предоставляет алгоритмы ИИ, которые определяют, распознают и анализируют человеческие лица на изображениях.

Выбор службы

Следующая блок-схема поможет выбрать службу визуального распознавания для конкретного варианта использования:

Diagram that shows how to choose a vision service.

Распространенные варианты использования

  • Компьютерное зрение

    • Описание изображения. Анализ изображения, оценка обнаруженных объектов и создание удобочитаемой фразы или предложения, описывающей изображение.
    • Функции визуального элемента тега. Примените теги, основанные на наборе тысяч распознаваемых объектов.
    • классифицировать изображение; Классифицируйте изображения на основе их содержимого.
    • Реализуйте OCR. Обнаружение печатного и рукописного текста в изображениях.
    • Обнаружение типов изображений. Например, определите изображения клипов или рисунки линий.
    • Обнаружение цветовой схемы. Определение доминирующего переднего плана, фона и доминирующих и акцентных цветов в изображении.
    • Создание эскизов. Создание небольших версий изображений.
    • Умеренное содержимое. Определите изображения, содержащие содержимое взрослых или изображающие горькие сцены.
    • Обнаружение содержимого для конкретного домена. Используйте две специализированные модели предметной области:
      • Знаменитости. Определите тысячи известных знаменитостей из спорта, развлечений и бизнес-доменов.
      • Достопримечательности. Определите известные достопримечательности, такие как Тадж Махал и Статуя Свободы.
    • Обнаружение объектов. Определите общие объекты и верните координаты ограничивающего поля.
    • Обнаружение брендов. Определите логотипы из существующей базы данных тысяч глобально распознанных логотипов продукта.
    • Обнаружение лиц. Обнаружение и анализ человеческих лиц на изображении. Вы можете определить возраст субъекта и вернуть ограничивающий прямоугольник, указывающий расположения лиц. Возможности анализа лиц службы Компьютерное зрение — это подмножество функций, предоставляемых выделенной службой распознавания лиц.
  • Пользовательское визуальное распознавание

    • Классификация изображений. Прогнозирование категории или класса на основе набора входных данных, которые называются функциями. Вычислите оценку вероятности для каждого возможного класса и возвращает метку, указывающую класс, к которому, скорее всего, принадлежит объект. Для использования этой модели требуются данные, состоящие из функций и их меток.
    • Обнаружение объектов. Получение координат объекта в изображении. Для использования этой модели требуются данные, состоящие из функций и их меток.
  • Службы распознавания лиц

    • Обнаружение лиц. Определите области изображения, содержащего человеческое лицо, обычно возвращая ограничивающие координаты прямоугольника, которые образуют прямоугольник вокруг лица.
    • Анализ лиц. Возвращать информацию, например ориентиры лица (нос, глаза, брови, губы и многое другое). Эти ориентиры лица можно использовать в качестве функций для обучения модели машинного обучения, которая может выводить информацию о людях, таких как их воспринимаемое возраст или эмоциональное состояние.
    • Распознавание лиц. Обучить модель машинного обучения, чтобы определить известных людей из их функций лица.

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участник.

Основные авторы:

Другие участник:

Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.

Следующие шаги