Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Внимание
- Служба "Распознавание содержимого ИИ Azure" доступна в предварительной версии. Общедоступные предварительные выпуски предоставляют ранний доступ к функциям, которые находятся в активной разработке.
- Функции, подходы и процессы могут изменяться или иметь ограниченные возможности до общедоступной доступности.
- Дополнительные сведения см. в дополнительных условиях использования для предварительных версий Microsoft Azure.
Azure AI Content Understanding позволяет создавать стандартный набор метаданных видео и создавать настраиваемые поля для конкретного варианта использования, используя возможности генеривных моделей. Понимание содержимого помогает эффективно управлять, классифицировать, извлекать и создавать рабочие процессы для видеоматериалов. Он улучшает библиотеку ресурсов мультимедиа, поддерживает такие рабочие процессы, как создание выделения, классификация содержимого и упрощение приложений, таких как создание дополненных в формате RAG.
Предварительно созданный видеоанализатор выводит RAG-ready Markdown, который включает:
- Транскрипт: Встроенные транскрипции в стандартном формате WEBVTT
- Описание: Описания сегментов естественного языка с визуальным и речевым контекстом
- Сегментация: Автоматическое сегментирование сцены разбиение видео на логические блоки
- Ключевые кадры: Упорядоченные миниатюры ключевых кадров, обеспечивающие более глубокий анализ
Этот формат может напрямую попасть в векторное хранилище, чтобы активировать рабочие процессы агента или рабочие процессы RAG, не требуя последующей обработки.
Оттуда можно настроить анализатор для более точного управления выходными данными. Можно определить настраиваемые поля, сегменты или включить идентификацию лиц. Настройка позволяет использовать полную мощность генеративных моделей для извлечения глубоких инсайтов из визуальных и звуковых данных видео.
Например, настройка позволяет:
- Определите настраиваемые поля: чтобы определить, какие продукты и бренды отображаются или упоминаются в видео.
- Создайте пользовательские сегменты: разделите трансляцию новостей на главы в зависимости от обсуждаемых тем или историй.
-
Определите людей с помощью каталога пользователя, позволяющего клиенту пометить докладчиков на конференциях в кадрах с помощью идентификации лиц, например ,
CEO John Doe
CFO Jane Smith
.
Зачем использовать понимание содержимого для видео?
Понимание содержимого для видео имеет широкий потенциал использования. Например, можно настроить метаданные для тегов определенных сцен в обучаемом видео, что упрощает поиск и пересмотр важных разделов сотрудникам. Вы также можете использовать настройку метаданных для идентификации размещения продуктов в рекламных видео, что помогает маркетинговым командам анализировать воздействие бренда. Возможны также другие способы использования:
- Широковещательные средства массовой информации и развлечения: Управление большими библиотеками шоу, фильмов и клипов путем создания подробных метаданных для каждого ресурса.
- Образование и электронное обучение: Индексирование и извлечение определенных моментов в учебных видео или лекциях.
- Корпоративная подготовка: Упорядочивайте обучающие видео по ключевым темам, сценам или важным моментам.
- Маркетинг и реклама: Анализ промо-роликов для выявления размещения продуктов, появления бренда и ключевых сообщений.
Пример предварительно созданного видеоанализатора
С помощью предварительно созданного видеоанализатора (видеоAnalyzer) вы можете отправить видео и сразу же получить полезный информационный ресурс. Сервис упаковывает каждый клип в богато оформленный Markdown и JSON. Этот процесс позволяет индексу поиска или агенту чата обрабатывать данные без необходимости в пользовательском коде, связывающем компоненты.
Например, создайте базу
prebuilt-videoAnalyzer
следующим образом:{ "config": {}, "BaseAnalyzerId": "prebuilt-videoAnalyzer", }
Затем, анализируя 30-секундное рекламное видео, приведет к следующим выходным данным:
# Video: 00:00.000 => 00:30.000 Width: 1280 Height: 720 ## Segment 1: 00:00.000 => 00:06.000 A lively room filled with people is shown, where a group of friends is gathered around a television. They are watching a sports event, possibly a football match, as indicated by the decorations and the atmosphere. Transcript WEBVTT 00:03.600 --> 00:06.000 <Speaker 1>Get new years ready. Key Frames - 00:00.600  - 00:01.200  ## Segment 2: 00:06.000 => 00:10.080 The scene transitions to a more vibrant and energetic setting, where the group of friends is now celebrating. The room is decorated with football-themed items, and everyone is cheering and enjoying the moment. Transcript WEBVTT 00:03.600 --> 00:06.000 <Speaker 1>Go team! Key Frames - 00:06.200  - 00:07.080  *…additional data omitted for brevity…*
Пошаговое руководство
Недавно мы опубликовали пошаговое руководство по RAG на видео с помощью распознавания содержимого. https://www.youtube.com/watch?v=fafneWnT2kw& lc=Ugy2XXFsSlm7PgIsWQt4AaABAg
Возможности
Под капотом два этапа преобразуют необработанные пиксели в инсайты, готовые для использования в бизнесе. Диаграмма ниже показывает, как извлечение способствует генерации, обеспечивая, что каждый последующий шаг получает необходимый контекст.
Служба работает на двух этапах. Первый этап, извлечение содержимого, включает захват базовых метаданных, таких как расшифровки, снимки и лица. Второй этап, извлечение полей, использует созданную модель для создания настраиваемых полей и выполнения сегментации. Кроме того, можно дополнительно включить надстройку распознавания лиц для идентификации отдельных лиц и описать их в видео.
Возможности извлечения содержимого
Первый проход включает выявление первого набора подробностей: кто говорит, где происходят разделения, и какие лица повторяются. Он создает прочную основу метаданных, на основе которой последующие шаги могут размышлять.
Транскрипция: Преобразует аудиозапись беседы в доступные для поиска и анализируемые текстовые расшифровки в формате WebVTT. Метки времени на уровне предложения доступны, если
"returnDetails": true
задано. Content Understanding поддерживает полный набор языков для преобразования речи в текст, доступных в службе Azure AI Speech. Сведения о поддержке языка видео совпадают с звуком, см. в разделе "Обработка речи аудио ". Следует учитывать следующие детали транскрипции:Диаризация: Различает динамиков в беседе в выходных данных, примекая части стенограммы к конкретным ораторам.
Многоязычное транскрибирование: Создает многоязычные расшифровки. Язык или локаль применяется для каждой фразы в расшифровке. Фразы выводятся, когда
"returnDetails": true
установлен. При отклонении от обнаружения языка эта функция включается, если язык или языковой стандарт не указан, или язык задан наauto
.Замечание
При использовании многоязычного транскрибирования все файлы с неподдерживаемых языковых стандартов создают результат на основе ближайшего поддерживаемого языкового стандарта, что, скорее всего, неверно. Это известное поведение. Избегайте проблем с качеством транскрибирования, обеспечивая настройку языковых стандартов, если не используется стандарт, поддерживающий многоязычное транскрибирование!
Извлечение ключевых кадров: Извлекает ключевые кадры из видео для полного представления каждого кадра, обеспечивая наличие достаточного количества ключевых кадров для эффективной работы обработки.
Обнаружение кадров: Определяет сегменты видео, которые возможно выровнять с границами кадров, что позволяет точно редактировать и перепаковывать содержимое, используя точно существующие разрывы. Результатом является список меток времени в миллисекундах в
cameraShotTimesMs
. Выходные данные возвращаются только при установленном значении"returnDetails": true
.
Извлечение полей и сегментация
Затем генерирующая модель помечает сцены, суммирует действия и разделяет кадры на сегменты по вашему запросу. Это действие, при котором запросы превращаются в структурированные данные.
Пользовательские поля
Настройте выходные данные в соответствии с вашей бизнес-лексикой.
fieldSchema
Используйте объект, в котором каждая запись определяет имя, тип и описание поля. Во время выполнения генерируемая модель заполняет эти поля для каждого сегмента.
Примеры:
Управление ресурсами мультимедиа:
- Категория видео: Помогает редакторам и продюсерам упорядочивать содержимое, классифицируя его как Новости, Спорт, Интервью, Документальный фильм, Реклама и т. д. Полезно для тегов метаданных и более быстрого фильтрации содержимого и извлечения.
- Цветовая схема: Передает настроение и атмосферу, важную для согласованности повествования и участия зрителей. Определение цветовой темы помогает найти соответствующие клипы для ускорения редактирования видео.
Реклама:
- Бренд: Определяет присутствие бренда, важно для анализа влияния рекламы, видимости бренда, а также связи с продуктами. Эта возможность позволяет рекламодателям оценивать фирменное значение и обеспечивать соответствие рекомендациям по фирменной символичности.
- Категории объявлений: Классифицирует типы объявлений по отрасли, типу продукта или сегменту аудитории, который поддерживает целевые стратегии рекламы, классификацию и анализ производительности.
Пример:
"fieldSchema": {
"description": "Extract brand presence and sentiment per scene",
"fields": {
"brandLogo": {
"type": "string",
"method": "generate",
"description": "Brand being promoted in the video. Include the product name if available."
},
"Sentiment": {
"type": "string",
"method": "classify",
"description": "Ad categories",
"enum": [
"Consumer Packaged Goods",
"Groceries",
"Technology"
]
}
}
}
Режим сегментации
Замечание
Установка триггеров сегментации активирует извлечение полей, даже если поля не определены.
Понимание содержимого предлагает три способа среза видео, позволяя получить выходные данные, необходимые для целых видео или коротких клипов. Эти параметры можно использовать, установив свойство SegmentationMode
в пользовательском анализаторе.
Весь видео —
segmentationMode : noSegmentation
служба обрабатывает весь видеофайл как один сегмент и извлекает метаданные в течение полной длительности.Пример:
- Проверка соответствия требованиям для поиска конкретных проблем с фирменной безопасностью в любом месте рекламы
- полные описательные резюме
Автоматическая сегментация —
segmentationMode = auto
служба анализирует временную шкалу и разбивает ее для вас. Группирует последовательные кадры в связанные сцены, обрезанные до одной минуты каждая.Пример:
- Создание раскадровки из шоу
- Вставка рекламных объявлений в середину видео в логические паузы.
Настраиваемое сегментирование —
segmentationMode : custom
вы описываете логику на естественном языке, а модель создает сегменты для сопоставления. ЗадайтеsegmentationDefinition
строку, описывающую сегментирование видео. Настройка позволяет отрезки разной длины, которые могут варьироваться от секунд до минут в зависимости от запроса.Пример:
- Разделить новостную передачу на отдельные сюжеты.
{ "segmentationMode": "custom", "segmentationDefinition": "news broadcasts divided by individual stories" }
Надстройка для распознавания и описания лиц
Замечание
Эта функция ограничена доступом и включает идентификацию лиц и группирование лиц; клиентам необходимо зарегистрировать доступ на сайте Распознавания лиц. Черты лица влекут дополнительные затраты.
Описание идентификации лиц — это дополнение, которое предоставляет контекст для извлечения содержимого и извлечения полей с помощью информации о лицах.
Извлечение содержимого — группирование и идентификация
Надстройка распознавания лиц включает группирование и идентификацию в качестве выходных данных из раздела извлечения содержимого. Чтобы включить возможности распознавания лиц, установите "enableFace":true
в конфигурации анализатора.
-
Группировка: Сгруппированные лица, отображаемые в видео, чтобы извлечь один представительный образ лица для каждого человека и предоставляет сегменты, в которых присутствует каждый из них. Данные сгруппированных лиц доступны в виде метаданных и могут использоваться для создания настраиваемых полей метаданных при
returnDetails: true
использовании анализатора. -
Идентификация: Метки людей в видео с именами на основе каталога лиц API распознавания лиц. Клиенты могут включить эту функцию, указав имя каталога API распознавания лиц в текущем ресурсе в
personDirectoryId
свойстве анализатора. Чтобы использовать эту возможность, сначала необходимо создать personDirectory, а затем ссылаться на него в анализаторе. Дополнительные сведения о том, как это сделать, см. в статье "Как создать каталог пользователя"
Извлечение данных — описание лица
Возможность извлечения полей расширена путем предоставления подробных описаний идентифицированных лиц в видео. Эта возможность включает такие атрибуты, как волосы лица, эмоции и присутствие знаменитостей, которые могут быть важными для различных аналитических и индексирования целей. Чтобы включить возможности описания лиц, установите disableFaceBlurring : true
в конфигурации анализатора.
Примеры:
-
Пример поля: emotionDescription: Содержит описание эмоционального состояния основного человека в этом клипе (например, ,
happy
)sad
angry
-
Пример поля: facialHairDescription: Описывает тип волос лица (например, ,
beard
,mustache
clean-shaven
)
Ключевые преимущества
Понимание содержимого обеспечивает несколько ключевых преимуществ по сравнению с другими решениями для анализа видео:
- Многокадровый анализ на основе сегментов: Определение действий, событий, тем и тематик путем анализа нескольких кадров из каждого сегмента видео, а не отдельных кадров.
- Настройка: Настройте поля и сегментацию, создаваемые путем изменения схемы в соответствии с конкретным вариантом использования.
- Генеривные модели: Описать на естественном языке, какое содержимое нужно извлечь, и Content Understanding использует генеривные модели для извлечения метаданных.
- Оптимизированная предварительная обработка: Выполните несколько этапов предварительной обработки извлечения содержимого, таких как транскрибирование и обнаружение сцены, оптимизированные для обеспечения полного контекста для моделей создания ИИ.
Технические ограничения и лимиты
Конкретные ограничения обработки видео следует учитывать:
- Выборка кадра (~ 1 FPS): анализатор проверяет около одного кадра в секунду. Быстрые движения или однокадровые события могут быть пропущены.
- Разрешение кадров (512 × 512 пикселей): выборочные кадры изменяются до размера 512 пикселей по каждой стороне. Малый текст или удаленные объекты могут быть потеряны.
- Речь: транскрибируются только слова. Музыка, звуковые эффекты и внешний шум игнорируются.
Требования к входным данным
Поддерживаемые форматы см. в разделе "Квоты и ограничения службы".
Поддерживаемые языки и регионы
См. раздел поддержки языка и региона.
Конфиденциальность и безопасность данных
Как и во всех службах ИИ Azure, ознакомьтесь с документацией майкрософт по данным, защите и конфиденциальности .
Внимание
Если вы обрабатываете биометрические данные (например, включите группирование лиц или идентификацию лиц), необходимо выполнить все уведомления, согласие и удаление в соответствии с gdpR или другими применимыми законами. См. данные и конфиденциальность для лица.
Следующие шаги
Обработка видео на портале Azure AI Foundry.
Краткое руководство: Анализируйте видеоконтент с помощью шаблонов анализаторов.
Образцы: