Azure распознавание содержимого в видео-решениях средств Foundry

Замечание

Версии 2024-12-01-preview API для распознавания содержимого и 2025-05-01-preview в настоящее время находятся в общедоступной предварительной версии. Эти предварительные версии предоставляются без соглашения об уровне обслуживания и не рекомендуется для рабочих нагрузок. Дополнительные сведения см. в разделе Supplemental Terms of Use for Microsoft Azure Previews и Microsoft Products and Services Data Protection Addendum (DPA).

Azure Распознавание контента позволяет создавать стандартный набор метаданных видео и создавать настраиваемые поля для конкретного варианта использования с помощью формируемых моделей. Понимание содержимого помогает управлять, классифицировать, извлекать и создавать рабочие процессы для видеоматериалов. Она улучшает вашу медиатеку, поддерживает такие функции, как генерация акцентов, категоризация контента и облегчение применения технологий, таких как дополненная генерация извлечений (RAG).

Иллюстрация процесса обработки видео для понимания содержания.

Готовый видеоанализатор (prebuilt-videoAnalysis) выводит выходные данные, готовые для RAG. В Markdown выводится следующее:

Транскрипт: Встроенные транскрипции в стандартном формате WEBVTT
Ключевые кадры: Упорядоченные миниатюры ключевых кадров, обеспечивающие более глубокий анализ

И схема JSON содержит дополнительные сведения из визуального анализа.

Описание: Описания сегментов естественного языка с визуальным и речевым контекстом
Сегментация: Автоматическое сегментирование сцены, разбивающая видео на логические блоки на основе категорий, которые вы определяете

Этот формат может напрямую интегрироваться в векторное хранилище, чтобы активировать рабочий процесс агента или RAG, дополнительная обработка не требуется.

Оттуда можно настроить анализатор для более точного управления выходными данными. Можно определить настраиваемые поля и сегменты. Настройка позволяет использовать полную мощность генеративных моделей для извлечения глубоких инсайтов из визуальных и звуковых данных видео.

Например, настройка позволяет:

Определите настраиваемые поля: чтобы определить, какие продукты и бренды отображаются или упоминаются в видео.
Создайте пользовательские сегменты: разделите трансляцию новостей на главы в зависимости от обсуждаемых тем или историй.
Распознавайте знаменитостей по описаниям лиц: позволяющая клиенту отмечать известных людей на видео именами и титулами, опираясь на глобальные знания генерирующей модели, например Satya Nadella.

Зачем использовать понимание содержимого для видео?

Понимание содержимого для видео имеет широкий потенциал использования. Например, можно настроить метаданные для тегов определенных сцен в обучаемом видео, что упрощает поиск и пересмотр важных разделов сотрудникам. Вы также можете использовать настройку метаданных для идентификации размещения продуктов в рекламных видео, что помогает маркетинговым командам анализировать воздействие бренда. Возможны также другие способы использования:

Широковещательные средства массовой информации и развлечения: Управление большими библиотеками шоу, фильмов и клипов путем создания подробных метаданных для каждого ресурса.
Образование и электронное обучение: Индексирование и извлечение определенных моментов в учебных видео или лекциях.
Корпоративная подготовка: Упорядочивайте обучающие видео по ключевым темам, сценам или важным моментам.
Маркетинг и реклама: Анализ промо-роликов для выявления размещения продуктов, появления бренда и ключевых сообщений.

Пример предварительно созданного видеоанализатора

С помощью предварительно настроенного видеоанализатора (prebuilt-videoSearch) вы можете загрузить видео и сразу же получить полезный информационный ресурс. Служба упаковывает содержимое в богато оформленный формат Markdown и JSON. Этот процесс позволяет индексу поиска или агенту чата принимать содержимое без пользовательского соединительного кода.

Например, вызов анализатора, предназначенного для извлечения с дополненной генерацией для видео prebuilt-videoSearch. Дополнительные сведения см. в кратком руководстве по REST API .

Анализ 30-секундного рекламного видео производит следующие выходные данные:

  # Video: 00:00.000 => 00:06.000
  A lively room filled with people is shown, where a group of friends is gathered around a television. They are watching a sports event, possibly a football match, as indicated by the decorations and the atmosphere.

  Transcript

  WEBVTT

  00:03.600 --> 00:06.000
  <Speaker 1>Get new years ready.

  Key Frames
  - 00:00.600 ![](keyFrame.600.jpg)
  - 00:01.200 ![](keyFrame.1200.jpg)

  ## Video: 00:06.000 => 00:10.080
  The scene transitions to a more vibrant and energetic setting, where the group of friends is now celebrating. The room is decorated with football-themed items, and everyone is cheering and enjoying the moment.

  Transcript

  WEBVTT

  00:03.600 --> 00:06.000
  <Speaker 1>Go team!

  Key Frames
  - 00:06.200 ![](keyFrame.6200.jpg)
  - 00:07.080 ![](keyFrame.7080.jpg)

     *…additional data omitted for brevity…*

Walkthrough

См. следующее пошаговое руководство по генеративному обучению (RAG) на видео с помощью службы "Понимание контента".

RAG на видео с помощью Azure распознавания содержимого

Замечание

Возможности идентификации лиц и группирования доступны только в предварительной версии API и не включены в выпуск общедоступной версии.

Два этапа преобразуют необработанное видео в структурированную аналитику. На следующей схеме показано, как извлечение содержимого переходит в извлечение полей.

Снимок экрана потока видеоанализатора.

Служба работает на двух этапах. Первый этап извлечения содержимого включает захват базовых метаданных, таких как расшифровки и снимки. Второй этап, извлечение полей, использует созданную модель для создания настраиваемых полей и выполнения сегментации.

Возможности извлечения содержимого

Первый проход заключается в извлечении первого набора деталей - кто говорит и где сокращения. Он создает прочную основу метаданных, на основе которой последующие шаги могут размышлять.

Транскрипция: Преобразует аудиозапись беседы в доступные для поиска и анализируемые текстовые расшифровки в формате WebVTT. Метки времени на уровне предложения доступны, если "returnDetails": true задано. Система распознавания содержимого поддерживает полный набор языков преобразования речи в текст на платформе Azure Speech в инструментах Foundry. Сведения о поддержке языка видео совпадают с звуком, см. в разделе "Обработка речи аудио ". Следует учитывать следующие детали транскрипции:
- Диаризация: Различает динамиков в беседе в выходных данных, примекая части стенограммы к конкретным ораторам.
- Многоязычное транскрибирование: Создает многоязычные расшифровки. Язык или локаль применяется для каждой фразы в расшифровке. Фразы выводятся, когда "returnDetails": true установлен. При отклонении от обнаружения языка эта функция включается, если язык или языковой стандарт не указан, или язык задан на auto.
  
  Замечание
  
  При использовании многоязычного транскрибирования все файлы с неподдерживаемых языковых стандартов создают результат на основе ближайшего поддерживаемого языкового стандарта, что, скорее всего, неверно. Это известное поведение. Избегайте проблем с качеством транскрибирования, обеспечивая настройку языковых стандартов, если не используется стандарт, поддерживающий многоязычное транскрибирование!
- Извлечение ключевых кадров: Извлекает ключевые кадры из видео для полного представления каждого кадра, обеспечивая наличие достаточного количества ключевых кадров для эффективной работы обработки.
- Обнаружение кадров: Определяет сегменты видео, которые возможно выровнять с границами кадров, что позволяет точно редактировать и перепаковывать содержимое, используя точно существующие разрывы. Результатом является список меток времени в миллисекундах в cameraShotTimesMs. Выходные данные возвращаются только при установленном значении "returnDetails": true.

Извлечение полей и сегментация

Затем генерирующая модель помечает сцены, суммирует действия и разделяет кадры на сегменты по вашему запросу. Это действие, при котором запросы превращаются в структурированные данные.

Пользовательские поля

Настройте выходные данные в соответствии с вашей бизнес-лексикой. fieldSchema Используйте объект, в котором каждая запись определяет имя, тип и описание поля. Во время выполнения генерируемая модель заполняет эти поля для каждого сегмента.

Управление ресурсами мультимедиа:
- Категория видео: Помогает редакторам и продюсерам упорядочивать содержимое, классифицируя его как Новости, Спорт, Интервью, Документальный фильм или реклама. Полезно для тегирования метаданных, более быстрой фильтрации содержимого и его извлечения.
- Цветовая схема: Передает настроение и атмосферу, важную для согласованности повествования и участия зрителей. Определение цветовой темы помогает найти соответствующие клипы для ускорения редактирования видео.
Реклама:
- Бренд: Определяет присутствие бренда, важно для анализа влияния рекламы, видимости бренда, а также связи с продуктами. Эта возможность позволяет рекламодателям оценивать фирменное значение и обеспечивать соответствие рекомендациям по фирменной символичности.
- Категории объявлений: Классифицирует типы объявлений по отрасли, типу продукта или сегменту аудитории, который поддерживает целевые стратегии рекламы, классификацию и анализ производительности.

Пример:

"fieldSchema": {
  "description": "Extract brand presence and sentiment per scene",
  "fields": {
    "brandLogo": {
      "type": "string",
      "method": "generate",
      "description": "Brand being promoted in the video. Include the product name if available."
    },
    "Sentiment": {
      "type": "string",
      "method": "classify",
      "description": "Ad categories",
      "enum": [
        "Consumer Packaged Goods",
        "Groceries",
        "Technology"
      ]
    }
  }
}

Поля описания лиц

Замечание

Эта функция имеет ограниченный доступ; клиентам необходимо подать запрос на отключение размытия изображений лиц для моделей Azure OpenAI посредством запроса в службу поддержки Azure. Дополнительные сведения Управление запросом в поддержку Azure.

Функция извлечения полей может быть дополнительно улучшена с целью предоставления подробных описаний лиц на видео. Эта возможность включает такие атрибуты, как волосы лица, выражение лица и присутствие знаменитостей, которые могут быть важными для различных аналитических и индексирования целей. Чтобы включить возможности описания лиц, установите disableFaceBlurring : true в конфигурации анализатора.

Примеры:

Пример поля: facialHairDescription: Описывает тип волос лица (например, , beard, mustacheclean-shaven)
Пример поля: nameOfProminentPerson: Предоставляет имя, если возможно знаменитость в видео (например, Satya Nadella)
Пример поля: faceSmilingFrowning: Предоставляет описание того, улыбается ли человек или хмурится

Режим сегментации

Замечание

Установка сегментации будет использовать генеративную модель, потребляя токены, даже если поля не определены.

Понимание содержимого предлагает два способа срезать видео, позволяя получить выходные данные, необходимые для целых видео или коротких клипов. Эти параметры можно использовать, установив свойство enableSegment в пользовательском анализаторе.

Весь видео — enableSegment : false служба обрабатывает весь видеофайл как один сегмент и извлекает метаданные в течение полной длительности.

Варианты использования:
- Проверка соответствия требованиям для поиска конкретных проблем с фирменной безопасностью в любом месте рекламы
- полные описательные резюме
Настраиваемое сегментирование — enableSegment : true вы описываете логику на естественном языке, а модель создает сегменты для сопоставления. Задайте contentCategories строку, описывающую сегментирование видео. Настройка позволяет отрезки разной длины, которые могут варьироваться от секунд до минут в зависимости от запроса. В этой версии видео поддерживает только один contentCategories объект.

Пример: Разделить выпуск новостей на отдельные сюжеты.
```
{
  "config": {
    "enableSegment": true,
    "contentCategories": {
      "news-story": { 
      "description": "Segment the video based on each distinct news segment. Use the timestamp of each image to identify the start and end time of each segment, no overlap segments. Ignore non-news segments like ads or promotion.",
      "analyzerId": "NewsAnalyzer"
      }         
    }
  }
}
```

Ключевые преимущества

Понимание содержимого обеспечивает несколько ключевых преимуществ по сравнению с другими решениями для анализа видео:

Многокадровый анализ на основе сегментов: Определение действий, событий, тем и тематик путем анализа нескольких кадров из каждого сегмента видео, а не отдельных кадров.
Настройка: Настройте поля и сегментацию, создаваемые путем изменения схемы в соответствии с конкретным вариантом использования.
Генеривные модели: Описать на естественном языке, какое содержимое нужно извлечь, и Content Understanding использует генеривные модели для извлечения метаданных.
Оптимизированная предварительная обработка: Выполните несколько этапов предварительной обработки извлечения содержимого, таких как транскрибирование и обнаружение сцены, оптимизированные для обеспечения полного контекста для моделей создания ИИ.

Технические ограничения и лимиты

Конкретные ограничения обработки видео следует учитывать:

Выборка кадра (~ 1 FPS): анализатор проверяет около одного кадра в секунду. Быстрые движения или однокадровые события могут быть пропущены.
Разрешение кадров (512 × 512 пикселей): выборочные кадры изменяются до размера 512 пикселей по каждой стороне. Малый текст или удаленные объекты могут быть потеряны.
Речь: транскрибируются только слова. Музыка, звуковые эффекты и внешний шум игнорируются.

Требования к входным данным

Поддерживаемые форматы см. в разделе "Квоты и ограничения службы".

Поддерживаемые языки и регионы

См. раздел поддержки языка и региона.

Конфиденциальность и безопасность данных

Как и в других инструментах Foundry, ознакомьтесь с документацией Microsoft по защите данных и конфиденциальности.

Внимание

Если вы обрабатываете биометрические данные (например, включите описание лиц), необходимо выполнить все уведомления, согласие и удаление в соответствии с применимыми законами. См. данные и конфиденциальность для лица.

Попробуйте проанализировать видео в Content Understanding Studio.
Ознакомьтесь с кратким руководством по Content Understanding Studio.
Дополнительные сведения об анализе видеосодержимого с помощью шаблонов анализаторов.
Образцы:
- тетрадь для извлечения видеоконтента
- Видео поиск с запросами естественного языка
- Шаблоны Analyzer

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-03-23

Azure распознавание содержимого в видео-решениях средств Foundry

Зачем использовать понимание содержимого для видео?

Пример предварительно созданного видеоанализатора

Walkthrough

Возможности

Возможности извлечения содержимого

Извлечение полей и сегментация

Пользовательские поля

Поля описания лиц

Режим сегментации

Ключевые преимущества

Технические ограничения и лимиты

Требования к входным данным

Поддерживаемые языки и регионы

Конфиденциальность и безопасность данных

Связанный контент

Обратная связь

Дополнительные ресурсы