Общие сведения об индексаторе видео в Azure AI

Статья
07/11/2024

Предупреждение

За последний год Индексатор видео Azure AI (VI) объявил о удалении своей зависимости от Службы мультимедиа Azure (AMS) из-за ее выхода. Были объявлены корректировки и изменения функций, а также предоставлено руководство по миграции.

Срок завершения миграции — 30 июня 2024 г. VI расширил срок обновления и миграции, чтобы вы могли обновить свою учетную запись VI и принять участие в миграции активов AMS VI до 15 июля 2024 года. Чтобы использовать миграцию активов AMS VI, необходимо также продлить учетную запись AMS до июля. Перейдите к учетной записи AMS в портал Azure и щелкните здесь, чтобы расширить.

Однако после 30 июня, если вы не обновили свою учетную запись VI, вы не сможете индексировать новые видео и не сможете воспроизводить любые видео , которые не были перенесены. Если вы обновляете учетную запись после 30 июня, вы можете немедленно возобновить индексирование, но вы не сможете воспроизводить видео, индексированные до обновления учетной записи, пока они не будут перенесены через миграцию AMS VI.

Индексатор видео Azure — это облачное приложение, часть служб ИИ Azure, созданная на основе служб ИИ Azure (таких как Face, Translator, Azure AI Vision и speech). Она позволяет извлекать аналитические сведения из видео с помощью видеоиндексатора ИИ и звуковых моделей.

Индексатор видео azure AI анализирует видео и звуковое содержимое, выполнив 30+ модели ИИ, создав широкие аналитические сведения. Ниже приведена иллюстрация анализа аудио и видео, выполняемого Индексатором видео Azure AI в фоновом режиме:

Чтобы приступить к извлечению аналитических сведений с помощью Индексатора видео в Azure AI, ознакомьтесь с разделом о том, как начать работу .

Что можно сделать с индексатором видео Azure AI?

Аналитика Индексатора видео Azure AI может применяться ко многим сценариям:

Глубокий поиск. Используйте аналитические сведения, извлеченные из видео, для улучшения взаимодействия с поиском в видеотеке. Например, индексирование лиц и произнесенных слов позволяет выполнять поиск моментов в видео, когда человек произносит определенные слова или когда два человека находятся в кадре вместе. Поиск на основе таких аналитических сведений, извлеченных из видео, — полезная функция для информационных агентств, образовательных учреждений, вещательных компаний, владельцев развлекательного содержимого, корпоративных бизнес-приложений и в целом для любой отрасли, где применяются библиотеки видео, по которым нужно выполнять поиск.
Создание содержимого: создание трейлеров, выделение reels, содержимое социальных сетей или клипы новостей на основе аналитики Индексатора видео Azure AI извлекается из содержимого. Ключевые кадры, маркеры сцен и метки времени пользователей и меток позволяют упростить процесс создания и упростить процесс создания, что позволяет легко добраться до частей видео, необходимых при создании содержимого.
Специальные возможности: хотите ли вы сделать содержимое доступным для людей с ограниченными возможностями или хотите, чтобы содержимое распределялось по разным регионам с помощью разных языков, можно использовать транскрибирование и перевод, предоставляемые Индексатором видео Azure AI на нескольких языках.
Монетизация: Индексатор видео Azure AI может помочь повысить ценность видео. Например, отрасли, которые получают доход от рекламы (новостные СМИ, социальные сети и т. д.), могут предоставлять актуальную рекламу, используя извлеченные аналитические сведения в качестве дополнительных сигналов для сервера рекламы.
Con режим палатки ration: используйте текстовые и визуальные модели con режим палатки ration, чтобы обеспечить безопасность пользователей от неуместного содержимого и проверить, соответствует ли содержимое, которое вы публикуете, соответствует значениям вашей организации. Вы можете автоматически блокировать определенные видеоролики или оповещать пользователей о содержимом.
Рекомендации. Аналитика видео можно использовать для улучшения взаимодействия с пользователями, подчеркнув соответствующие моменты видео для пользователей. Помечая каждое видео с дополнительными метаданными, вы можете рекомендовать пользователям наиболее релевантные видео и выделить части видео, соответствующие их потребностям.

Функции ИИ для видео/аудио

В следующем списке показаны аналитические сведения, которые можно получить из видео-аудиофайлов с помощью видео-индексатора Azure ИИ и функций аудио ИИ (модели).

Если не указано иное, модель общедоступна.

Видео модели

Определение лиц — обнаружение и группировка лиц, показываемых на видео.
Идентификация знаменитостей: определяет более 1 миллиона знаменитостей, таких как мировые лидеры, актеры, художники, спортсмены, исследователи, бизнес и технологические лидеры по всему миру. Данные об этих знаменитостях можно найти также на различных веб-сайтах (например, IMDB и Википедия).
Идентификация лиц на основе учетной записи: обучает модель для конкретной учетной записи. Затем он распознает лица в видео на основе обученной модели. Дополнительные сведения см. в статье "Настройка модели person" на веб-сайте Индексатора видео Azure ИИ и настройка модели person с помощью API индексатора видео Azure.
Извлечение эскизов для лиц: определяет лучшее захваченное лицо в каждой группе лиц (на основе качества, размера и передней позиции) и извлекает его в качестве ресурса изображения.
Оптическое распознавание символов (OCR): извлекает текст из изображений, таких как изображения, уличные знаки и продукты в файлах мультимедиа для создания аналитических сведений.
Модерация визуального контента — обнаружение визуального содержимого для взрослых и (или) содержимого непристойного характера.
Определение меток — определение показываемых визуальных объектов и действий.
Сегментация сцены: определяет, когда сцена изменяется в видео на основе визуальных подсказок. Сцена изображает одно событие и состоит из ряда последовательных выстрелов, которые семантически связаны.
Обнаружение снимка: определяет, когда выстрел изменяется в видео на основе визуальных подсказок. Выстрел — это серия кадров, взятых из той же камеры для киносъемки. Дополнительные сведения см. в разделе Сцены, сюжеты и опорные кадры.
Определение черных рамок — определение черных рамок, присутствующих на видео.
Извлечение ключевых кадров — обнаружение статичных ключевых кадров на видео.
Прокатные кредиты: определяет начало и конец прокатных кредитов в конце телевизионных шоу и фильмов.
Определение типа редакционного выстрела: Теги выстрелов на основе их типа (например, широкий выстрел, средний выстрел, близко, крайний близко, два выстрела, несколько человек, открытый и закрытый, и т. д.). Дополнительные сведения см. в разделе Обнаружение типа снимка.
Отслеживаемые пользователи (предварительная версия): обнаруживает наблюдаемых людей в видео и предоставляет такие сведения, как расположение человека в кадре видео (с использованием ограничивающих прямоугольников) и точной метки времени (начало, конец) и уверенность при появлении человека. Дополнительные сведения см. в статье Отслеживание наблюдаемых людей в видео.
- Люди обнаружили одежду (предварительная версия): обнаруживает типы одежды людей, появляющихся в видео, и предоставляет информацию, например длинные или короткие рукава, длинные или короткие брюки и юбку или платье. Обнаруженная одежда связана с людьми, носить его, и точные метки времени (начало, конец) вместе с уровнем достоверности для обнаружения предоставляются. Дополнительные сведения см. в статье об обнаруженной одежде.
- Представленная одежда (предварительная версия): захватывает избранные изображения одежды, отображаемые в видео. Вы можете улучшить целевую рекламу с помощью аналитических сведений о одежде. Сведения о том, как избранные изображения одежды ранжируются и как получить аналитические сведения, см . в описанной одежде.
Сопоставленный человек (предварительная версия): соответствует людям, которые были замечены в видео с соответствующими лицами, обнаруженными. Соответствие между замеченными людьми и лицами содержит уровень достоверности.
Обнаружение объектов обнаруживает уникальные объекты, которые также отслеживаются, чтобы, если они возвращаются в кадр, который они распознаются. См. сведения об обнаружении объектов Индексатора видео в Azure AI
Обнаружение slate (предварительная версия): определяет следующие аналитические сведения о фильме после производства при индексировании видео с помощью расширенного параметра индексирования:
- Обнаружение clapperboard с извлечением метаданных.
- Обнаружение цифровых шаблонов, включая цветовые полосы.
- Обнаружение безтекстового листа, включая сопоставление сцен.
Дополнительные сведения см. в разделе "Обнаружение Slate".
Обнаружение текстового логотипа (предварительная версия): соответствует определенному предварительно определенному тексту с помощью OCR индексатора видео Azure AI. Например, если пользователь создал текстовый логотип: "Майкрософт", то в качестве логотипа Майкрософт будут обнаружены различные внешние виды слова Майкрософт . Дополнительные сведения см. в разделе "Обнаружение текстового логотипа".

Звуковые модели

Расшифровка речи — преобразование речи в текст на более чем 50 языках и поддержка расширений. Дополнительные сведения см. в статье о поддержке языка Индексатора видео в Azure AI.
Автоматическое обнаружение языка: определяет доминирующий язык. Дополнительные сведения см. в статье о поддержке языка Индексатора видео в Azure AI. Если язык не удается определить с уверенностью, Индексатор видео Azure предполагает, что речь идет на английском языке. Дополнительные сведения см. в разделе Модель идентификации языка.
Многоязычная идентификация речи и транскрибирование: определяет язык в разных сегментах звука. Отправляет каждый сегмент файла мультимедиа для транскрибирования, а затем объединяет транскрипцию в единый элемент. Дополнительные сведения см. в разделе Автоматическое выявление и транскрибирование содержимого на нескольких языках.
Скрытые субтитры — создание скрытых субтитров в трех форматах: VTT, TTML, SRT.
Обработка двух каналов: автоматическое обнаружение отдельных расшифровок и слияние с одной временной шкалой.
Уменьшение шума — очистка телефонных разговоров или шумных записей (на основе фильтров Skype).
Настройка расшифровки (CRIS): обучение пользовательской речи в текстовые модели для создания транскрибирования в отрасли. Дополнительные сведения см. в разделе "Настройка языковой модели".
Определение числа говорящих — распознавание и привязка говорящих к определенным репликам в определенный момент времени. В одном звуковом файле можно определить 16 говорящих.
Статистика говорящего: предоставляет статистику для соотношений речи говорящего.
Модерация текстового содержимого — определение непристойного текста в расшифровке речи.
Обнаружение эмоций на основе текста: эмоции, такие как радость, печаль, гнев и страх, которые были обнаружены с помощью анализа транскрибирования.
Перевод. Создает переводы транскрибирования звука на различные языки. Дополнительные сведения см. в статье о поддержке языка Индексатора видео в Azure AI.
Звуковые эффекты (предварительная версия). Обнаружение следующих звуковых эффектов в неречевом содержимом: будильник, сирена, собачий лай, реакции толпы (одобрение, аплодисменты и свист), выстрелы из оружия, взрыв, смех, звон разбитых стекол и тишина.

Обнаруженные звуковые события доступны в файле со скрытыми субтитрами. Файл можно скачать с веб-сайта Индексатора видео Azure AI. Дополнительные сведения см. в статье Обнаружение звуковых эффектов.

Примечание.

Полный набор событий доступен только при выборе варианта Расширенный анализ звука в предустановленной конфигурации отправки при отправке файла. По умолчанию обнаруживается только тишина.

Модели аудио и видео (мультиканала)

При индексировании по одному каналу доступны частичные результаты для этих моделей.

Излечение ключевых слов — извлечение ключевых слов из речи и визуального текста.
Извлечение именованных сущностей: извлекает бренды, расположения и людей из речи и визуального текста с помощью обработки естественного языка (NLP).
Вывод раздела: извлекает разделы на основе различных ключевых слов (т. е. ключевых слов "Фондовая биржа", "Уолл-стрит" создает раздел "Экономика"). В модели используются три разные онтологии (IPTC, Википедия и иерархическая онтология индексатора видео). Модель использует транскрипцию (произнесенные слова), содержимое OCR (визуальный текст) и знаменитостей, обнаруженных на видео с помощью модели распознавания лиц индексатора видео.
Артефакты — извлечение широкого набора артефактов "следующего уровня детализации" для каждой из моделей.
Анализ тональности — определение положительной, отрицательной и нейтральной тональности в речи и визуальном тексте.

Как приступить к работе с Индексатором видео в Azure AI?

Узнайте, как приступить к работе с Индексатором видео в Azure AI.

После настройки начните использовать аналитические сведения и ознакомьтесь с другими руководствами.

Соответствие требованиям, конфиденциальность и безопасность

Примечание.

11 июня 2020 г. корпорация Майкрософт объявила о том, что она не будет продавать технологию распознавания лиц полицейским управлениям в США до тех пор, пока не вступят силу строгие правовые нормы, гарантирующие защиту прав человека. Таким образом, клиенты могут не использовать функции распознавания лиц или функциональные возможности, включенные в службы ИИ Azure, такие как Индексатор лиц или видео, если клиент является, или разрешает использовать такие службы или для, отдел полиции в США.

Примечание.

Доступ к функциям идентификации лиц, настройки и распознавания знаменитостей ограничен на основе критериев соответствия и использования для поддержки наших принципов ответственного ИИ. Функции идентификации лиц, настройки и распознавания знаменитостей доступны только для управляемых клиентов и партнеров Майкрософт. Используйте форму приема Распознавания лиц, чтобы подать заявку на доступ.

Как важное напоминание, вы должны соответствовать всем применимым законам в использовании Индексатора видео Azure AI, и вы не можете использовать Индексатор видео Azure или любую службу Azure таким образом, чтобы нарушать права других пользователей или что может быть вредно для других.

Перед отправкой видео/изображения в Индексатор видео и видео Azure необходимо иметь все необходимые права на использование видео/изображения, включая, где это требуется в законе, все необходимые согласия от отдельных лиц (если таковые имеются) в видео/изображении, для использования, обработки и хранения их данных в Индексаторе видео и Azure. Некоторые юрисдикции могут накладывать особые юридические требования для сбора, обработки в сети и хранения определенных категорий данных, таких как биометрические данные. Прежде чем использовать Индексатор видео Azure ИИ и Azure для обработки и хранения любых данных, подлежащих специальным юридическим требованиям, необходимо обеспечить соответствие любым таким юридическим требованиям, которые могут применяться к вам.

Чтобы узнать о соответствии требованиям, конфиденциальности и безопасности в Индексаторе видео в Azure AI, посетите Центр управления безопасностью Майкрософт. Обязательства Майкрософт по обеспечению конфиденциальности, рекомендации по обработке, хранению и удалению данных см. в Заявлении о конфиденциальности, Условиях использования веб-служб (OST) и Приложении к заявлению об обработке данных (DPA). Используя Индексатор видео Azure AI, вы соглашаетесь быть привязаны ost, DPA и заявление о конфиденциальности.

Поделиться через