Выберите технологию обработки и создания изображений и видео на базе ИИ Azure

2025-06-10

Службы искусственного интеллекта Azure помогают разработчикам и организациям создавать интеллектуальные, передовые, готовые к рынкам и ответственные приложения с готовыми и предварительно созданными и настраиваемыми API и моделями.

В этой статье рассматриваются службы ИИ, предоставляющие возможности обработки видео и изображений, такие как визуальный анализ и создание изображений, обнаружение объектов, классификация изображений и распознавание лиц.

Службы

Следующие службы предоставляют возможности обработки видео и изображений для служб ИИ:

Служба Azure OpenAI
- Использование Azure OpenAI для создания изображений на основе естественного языка с помощью предварительно обученных моделей создания образов. Например, Azure OpenAI можно использовать для генерации пользовательских произведений искусства по запросу.
- Используйте Azure OpenAI, когда необходимо выполнить неспецифический, широкий анализ изображений. Например, можно использовать Azure OpenAI для создания описания специальных возможностей.
- Не используйте Azure OpenAI, если вы хотите использовать модели создания образов с открытым исходным кодом, доступные в Машинном обучении Azure.
- Не используйте Azure OpenAI, если вам нужно выполнить определенные типы обработки изображений, такие как извлечение форм, распознавание лиц или обнаружение характеристик изображения в домене. В этих сценариях используйте или создайте решения искусственного интеллекта, разработанные специально для этих целей.
Microsoft Azure AI Vision
- Использование Зрение, когда требуется базовое оптическое распознавание символов (OCR), анализ изображений или базовый анализ видео для обнаружения движения и других событий.
- Не используйте Vision для анализа, который уже поддерживается большими многомодальными базовыми моделями.
- Не используйте Vision для модерации контента. Вместо этого используйте безопасность содержимого искусственного интеллекта Microsoft Azure.
Microsoft Azure Custom Vision AI
- Используйте Custom Vision для конкретных требований, которые не могут быть выполнены анализом изображений, предоставляемым Vision. Например, Пользовательское визуальное распознавание может распознавать необычные объекты и производственные дефекты. Он также может предоставлять подробные пользовательские классификации.
- Не используйте Пользовательское визуальное распознавание, если требуется базовое обнаружение объектов или обнаружение лиц. Вместо этого используйте azure AI Face или Vision.
- Не используйте Custom Vision для базового визуального анализа. Вместо этого используйте модели с поддержкой визуального зрения из Azure OpenAI или моделей с открытым кодом в Машинном обучении.
Распознавание лиц Azure AI
- Используйте Azure AI Face, когда необходимо проверить, являются ли лица настоящими или фальшивыми, а также для идентификации, группировки или поиска похожих лиц.
- Не используйте Azure AI Face для обнаружения эмоций в лицах или выполнения других высокоуровневых рассуждений о лицах. Вместо этого используйте многомодальные языковые модели для этих задач.
Индексатор видео Microsoft Azure AI
- Используйте Video Indexer для расширенных задач анализа видео, которые не могут обрабатываться базовым анализом видео в Vision.
- Не используйте Индексатор видео для основных задач анализа видео, таких как подсчет людей и обнаружение событий и движения. Базовый анализ видео в Визуальном представлении является более экономичным для этих задач.

Azure OpenAI

Azure OpenAI предоставляет доступ к мощным языковым моделям OpenAI, включая последнее поколение моделей GPT. Эти модели поддерживают визуальный анализ и генерацию изображений. DALL-E также поддерживает создание образов.

Зрение

Vision предоставляет расширенные алгоритмы, обрабатывающие изображения и возвращающие сведения на основе указанных вами визуальных признаков. Она предоставляет четыре службы: OCR, Распознавание лиц Azure ИИ, анализ изображений и пространственный анализ.

Возможности

В следующей таблице представлен список возможностей, доступных в Vision.

Возможность	Описание
Распознавание текста	OCR извлекает текст из изображений. С помощью API чтения можно извлечь печатный и рукописный текст из фотографий и документов. Она использует модели на основе глубокого обучения для обработки текста в различных поверхностях и фонах. К этим материалам относятся бизнес-документы, счета, квитанции, плакаты, визитные карточки, письма и доски. API OCR поддерживают извлечение текста на печать на нескольких языках.
Анализ изображений визуального распознавания искусственного интеллекта Azure	Анализ изображений извлекает множество визуальных функций из изображений, таких как объекты, лица и автогенерированные текстовые описания. Вы можете создавать пользовательские модели идентификаторов изображений с помощью анализа изображений 4.0 , основанной на базовой модели Флоренции.
Анализ видео	Видеоанализ включает функции, связанные с видео, такие как пространственный анализ и извлечение видео. Пространственный анализ анализирует присутствие и перемещение людей в видеотрансляции и создает события, на которые могут реагировать другие системы.

Настраиваемое видение

Пользовательское визуальное распознавание — это служба распознавания изображений, которую можно использовать для создания, развертывания и улучшения моделей идентификаторов изображений. Идентификатор изображения применяет метки к изображениям в соответствии с их визуальными характеристиками. Каждая метка представляет классификацию или объект. Используйте пользовательское визуальное распознавание для указания собственных меток и обучения пользовательских моделей для их обнаружения.

Custom Vision использует алгоритм машинного обучения для анализа изображений на предмет пользовательских особенностей. Вы отправляете наборы изображений, которые имеют и не имеют нужных визуальных характеристик. Затем вы помечаете изображения собственными метками или тегами во время отправки. Алгоритм обучается по этим данным и вычисляет собственную точность, проводя тесты на тех же изображениях. После обучения модели можно протестировать, переобучить и в конечном итоге использовать модель в приложении распознавания изображений для классификации изображений или обнаружения объектов. Вы также можете экспортировать модель для автономного использования.

Возможности

В следующей таблице представлен список возможностей, доступных в Пользовательском визуальном представлении.

Возможность	Описание
Классификация изображений	Прогнозирование категории или класса на основе набора входных данных, которые называются функциями. Вычислите оценку вероятности для каждого возможного класса и верните метку, которая указывает на класс, которому наиболее вероятно принадлежит объект. Для использования этой модели требуются данные, состоящие из функций и их меток.
Обнаружение объектов	Получение координат объекта в изображении. Для использования этой модели требуются данные, состоящие из функций и их меток.

Возможность

Описание

Классификация изображений

Прогнозирование категории или класса на основе набора входных данных, которые называются функциями. Вычислите оценку вероятности для каждого возможного класса и верните метку, которая указывает на класс, которому наиболее вероятно принадлежит объект. Для использования этой модели требуются данные, состоящие из функций и их меток.

Обнаружение объектов

Получение координат объекта в изображении. Для использования этой модели требуются данные, состоящие из функций и их меток.

Случаи использования

В следующей таблице приведен список возможных вариантов использования пользовательского визуального распознавания.

Вариант использования	Описание
Используйте пользовательское визуальное распознавание с устройством Интернета вещей, чтобы сообщить о визуальных состояниях.	Используйте пользовательское видение для обучения устройства с камерой обнаруживать визуальные состояния. Этот сценарий обнаружения можно запустить на устройстве Интернета вещей с помощью экспортируемой модели ONNX. Визуальное состояние описывает содержимое изображения, например пустую комнату или комнату с людьми, пустой подъездной дорожкой или подъездной дорожкой с грузовиком.
Классификация изображений и объектов.	Анализируйте фотографии и сканируйте определенные логотипы, обучая пользовательскую модель.

Вариант использования

Описание

Используйте пользовательское визуальное распознавание с устройством Интернета вещей, чтобы сообщить о визуальных состояниях.

Используйте пользовательское видение для обучения устройства с камерой обнаруживать визуальные состояния. Этот сценарий обнаружения можно запустить на устройстве Интернета вещей с помощью экспортируемой модели ONNX. Визуальное состояние описывает содержимое изображения, например пустую комнату или комнату с людьми, пустой подъездной дорожкой или подъездной дорожкой с грузовиком.

Классификация изображений и объектов.

Анализируйте фотографии и сканируйте определенные логотипы, обучая пользовательскую модель.

Azure AI Face распознавание лиц

Azure AI Face предоставляет алгоритмы ИИ, которые обнаруживают, распознают и анализируют человеческие лица на изображениях. Программное обеспечение распознавания лиц важно в различных сценариях, таких как идентификация, сенсорный контроль доступа и автоматическое размытие лиц для конфиденциальности.

Возможности

В следующей таблице приведен список возможностей, доступных в Azure AI Face.

Возможность	Описание
Обнаружение и анализ лиц	Определите области изображения, в которых содержится человеческое лицо, возвращая координаты ограничивающего прямоугольника, которые образуют рамку вокруг лица.
поиск похожих лиц;	Операция «Find Similar» сопоставляет целевое лицо с набором лиц кандидатов. Он определяет меньшую группу лиц, которые тесно похожи на целевое лицо. Эта функция полезна для поиска лиц по изображению.
Лица группы	Операция группирования делит набор неизвестных лиц на несколько небольших групп, основываясь на сходстве. Каждая группа является несвязанным подмножеством исходного набора лиц. Он также возвращает один `messyGroup` массив, содержащий идентификаторы лиц, для которых не найдены сходства.
Идентификация	Идентификация лиц может выполнять один-к-многим сопоставление лица на изображении с множеством лиц в безопасном репозитории. Кандидаты на совпадение возвращаются в зависимости от того, насколько точно данные их лиц соответствуют данным лица в запросе.
Операции распознавания лиц	Современные предприятия и приложения могут использовать технологии распознавания лиц Azure AI, включая проверку лиц (или сопоставление с одним к одному) и идентификацию лиц (или сопоставление "один ко многим") для подтверждения того, что пользователь является тем, кто они утверждают.
Проверка на живость	Обнаружение активности — это функция защиты от спуфингов, которая проверяет, присутствует ли пользователь физически перед камерой. Он используется для предотвращения спуфинга атак, использующих напечатанное фото, записанное видео или трехмерную маску лица пользователя.

Случаи использования

В следующей таблице приведен список возможных вариантов использования для Azure AI Face.

Вариант использования	Описание
Проверка удостоверения пользователя	Проверьте человека на доверенном изображении лица. Эту проверку можно использовать для предоставления доступа к цифровым или физическим свойствам. В большинстве случаев доверенный образ лица поступает из выданного правительством идентификатора, такого как паспорт или водительская лицензия, или из фотографии регистрации, сделанные лично. Во время верификации детекция живости может играть ключевую роль в подтверждении того, что изображение получено от реального человека, а не с напечатанной фотографии или маски.
Скрытие лиц	Редакт или размытие обнаружили лица людей, записанных в видео для защиты их конфиденциальности.
Управление доступом без сенсорного ввода	По сравнению с такими методами, как карточки или билеты, идентификация лиц позволяет повысить уровень управления доступом, уменьшая риски гигиены и безопасности от обмена физическими средствами массовой информации, потери или кражи. Распознавание лиц помогает в процессе регистрации с участием человека, например, в аэропорту, на стадионах, в парках развлечений, в зданиях, при использовании терминалов регистрации в офисах, больницах, тренажерных залах, клубах и школах.

Индексатор видео

Индексатор видео — это облачное приложение, которое является частью служб ИИ. Он создан с помощью средств ИИ Azure, таких как Face, Translator, Vision и Speech. Он позволяет извлекать аналитические сведения из видео с помощью видео-индексатора видео и звуковых моделей.

Возможности

В следующей таблице приведен список некоторых возможностей, доступных в Индексаторе видео.

Возможность	Описание
Идентификация речи с несколькими языками и транскрибирование	Определяет разговорный язык в разных сегментах звука. Отправляет каждый сегмент файла мультимедиа для транскрибирования, а затем объединяет транскрипцию в единый элемент.
Обнаружение лиц	Обнаруживает и группирует лица, которые отображаются в видео.
Идентификация знаменитостей	Определяет более 1 миллионов знаменитостей, таких как мировые лидеры, актеры, художники, спортсмены, исследователи и бизнес и технологические лидеры по всему миру. Данные об этих знаменитостях также можно найти на различных веб-сайтах, таких как IMDB и Википедия.
Идентификация лиц на основе учетной записи	Обучает модель для конкретной учетной записи. Затем он распознает лица в видео на основе обученной модели.
Отслеживание наблюдаемых пользователей (предварительная версия)	Обнаруживает наблюдаемых людей в видео. Он предоставляет такие сведения, как расположение человека в видеокадре с помощью ограничивающих прямоугольников. Он также включает в себя точные метки времени начала и окончания, время появления человека, а также уровень уверенности для обнаружения.
Транскрибирование звука	Преобразует речь в текст на более чем 50 языках и позволяет расширениям.
Распознавание языка	Определяет доминирующий язык.
Уменьшение шума	Очистка телефонных разговоров или шумных записей (на основе фильтров Skype).
Перевод	Создает переводы аудиозаписей на различные языки.

Дополнительные сведения см. в документации по индексатору видео.

Случаи использования

В следующей таблице приведен список возможных вариантов использования индексатора видео.

Вариант использования	Описание
Глубокий поиск	С помощью аналитических сведений, извлеченных из видео, можно усовершенствовать систему поиска по библиотеке видео. Например, индексирование лиц и произнесенных слов позволяет выполнять поиск моментов в видео, когда человек произносит определенные слова или когда два человека находятся в кадре вместе. Поиск на основе таких аналитических сведений из видео применим к информационным агентствам, образовательным институтам, вещательным организациям, владельцам развлекательных контента, корпоративным бизнес-приложениям и, как правило, к любой отрасли, которая имеет видео библиотеку, которую пользователи должны искать.
Создание содержимого	Создавайте трейлеры, хайлайты, контент для социальных сетей или новостные клипы на основе аналитики, которую Видео Индексатор извлекает из вашего содержимого. Ключевые кадры, метки сцен и временные метки появления людей и меток упрощают процесс создания. Эти элементы помогают быстро найти части видео, необходимые при создании содержимого.
Доступность	Хотите ли вы сделать содержимое доступным для людей с ограниченными возможностями или хотите, чтобы содержимое распространялось в разные регионы, использующие разные языки, можно использовать транскрибирование и перевод, предоставляемые Индексатором видео на нескольких языках.
Монетизация	Индексатор видео может помочь увеличить значение видео. Например, отрасли, использующие доход от рекламы, такие как новости и социальные медиа, могут доставлять соответствующие объявления с помощью извлеченных аналитических сведений в качестве дополнительных сигналов на рекламный сервер.
Модерация контента	Используйте модели модерации текстового и визуального контента, чтобы обеспечить безопасность пользователей от неуместного содержимого и проверить, соответствует ли содержимое вашей организации. Вы можете автоматически блокировать определенные видеоролики или оповещать пользователей о содержимом.
Рекомендации	С помощью аналитических сведений, полученных из видео, можно повысить уровень вовлеченности пользователей, размещая для них релевантные фрагменты видео. Помечая каждое видео с дополнительными метаданными, вы можете рекомендовать пользователям наиболее релевантные видео и выделить части видео, соответствующие их потребностям.

Поделиться через

Выберите технологию обработки и создания изображений и видео на базе ИИ Azure

Службы

Azure OpenAI

Зрение

Возможности

Настраиваемое видение

Возможности

Случаи использования

Azure AI Face распознавание лиц

Возможности

Случаи использования

Индексатор видео

Возможности

Случаи использования

Следующие шаги

Связанные ресурсы

Обратная связь

Дополнительные ресурсы