Анализ видео и аудиофайлов с помощью служб мультимедиа Azure
логотип служб мультимедиа версии 3
Предупреждение
Службы мультимедиа Azure будут прекращены 30 июня 2024 г. Дополнительные сведения см. в руководстве по выходу на пенсию AMS.
Важный
По мере того как корпорация Майкрософт ответственных стандартов ИИ описывает, корпорация Майкрософт стремится к справедливости, конфиденциальности, безопасности и прозрачности в отношении систем искусственного интеллекта. Чтобы соответствовать этим стандартам, Службы мультимедиа Azure отставали от предустановки Видеоанализатора 14 сентября 2023 г.. В настоящее время этот предустановленный набор позволяет извлекать из видеофайла несколько аналитических сведений о видео и аудио. Клиенты могут заменить текущие рабочие процессы с помощью более расширенного набора функций, предлагаемых индексатором видео Azure.
Службы мультимедиа позволяют извлекать аналитические сведения из видео и аудиофайлов с помощью предустановок аудиоанализатора и видеоанализатора. В этой статье описаны предустановки анализатора, используемые для извлечения аналитических сведений. Если требуется более подробная информация из видео, используйте службу индексатора видео Azure. Чтобы понять, когда используется индексатор видео и предустановки анализатора служб мультимедиа, ознакомьтесь с документом сравнения.
Существует два режима для предустановки аудиоанализатора, базовый и стандартный. См. описание различий в таблице ниже.
Чтобы проанализировать содержимое с помощью предустановок служб мультимедиа версии 3, создайте преобразования
Заметка
AudioAnalyzerPreset не поддерживается, если у учетной записи хранения нет доступа к общедоступной сети.
Соответствие требованиям, конфиденциальность и безопасность
Вы должны соответствовать всем применимым законам в использовании Индексатора видео, и вы не можете использовать Индексатор видео или любую другую службу Azure таким образом, чтобы нарушать права других пользователей или может быть вредно для других. Перед отправкой видео, включая биометрические данные, в службу индексатора видео для обработки и хранения, необходимо иметь все необходимые права, включая все соответствующие согласия, от отдельных лиц в видео. Чтобы узнать о соответствии требованиям, конфиденциальности и безопасности в Индексаторе видео, условияхAzure
Встроенные предустановки
Службы мультимедиа в настоящее время поддерживают следующие встроенные предустановки анализатора:
имя предустановки | Сценарий / режим | подробные сведения |
---|---|---|
AudioAnalyzerPreset | Анализ стандартного режима звука | Предустановка применяет предопределенный набор операций анализа на основе ИИ, включая транскрибирование речи. В настоящее время предустановка поддерживает обработку содержимого с помощью одной звуковой дорожки, содержащей речь на одном языке. Укажите язык для полезных данных звука во входных данных с помощью формата BCP-47 "language tag-region". См. список поддерживаемых языков ниже для доступных кодов языка. Автоматическое обнаружение языка выбирает первый язык, обнаруженный и продолжается с выбранным языком для всего файла, если он не задан или имеет значение NULL. Функция автоматического обнаружения языка в настоящее время поддерживает: английский, китайский, французский, немецкий, итальянский, японский, испанский, русский и бразильский португальский. Он не поддерживает динамическое переключение между языками после обнаружения первого языка. Функция автоматического обнаружения языка лучше всего работает с аудиозаписями с четко заметной речью. Если автоматическое обнаружение языка не удается найти язык, транскрибирование возвращается на английский язык. |
AudioAnalyzerPreset | Анализ режима "Базовый звук" | Этот предустановленный режим выполняет транскрибирование речи к тексту и создание файла субтитров или субтитров VTT. Выходные данные этого режима включают JSON-файл Insights, включая только ключевые слова, транскрибирование и сведения о времени. Автоматическое обнаружение языка и диаризация динамиков не включены в этот режим. Список поддерживаемых языков идентичен приведенному выше стандартному режиму. |
VideoAnalyzerPreset | Анализ звука и видео | Извлекает аналитические сведения (богатые метаданные) как из звука, так и видео, и выводит файл формата JSON. Можно указать, требуется ли извлекать аналитические сведения только для аудиофайла при обработке видеофайла. |
FaceDetectorPreset | Обнаружение лиц, присутствующих в видео | Описывает параметры, используемые при анализе видео для обнаружения всех присутствующих лиц. |
Заметка
AudioAnalyzerPreset не поддерживается, если у учетной записи хранения нет доступа к общедоступной сети.
Поддерживаемые языки
- Арабский ("ar-BH", "ar-EG", "ar-IQ", "ar-JO", "ar-KW", "ar-LB", "ar-OM", "ar-QA", "ar-SA" и "ar-SY")
- Бразильский португальский ('pt-BR')
- Китайский ('zh-CN')
- Датский('da-DK')
- Английский ("en-US", "en-GB" и "en-AU")
- Финский ("fi-FI")
- Французский ('fr-FR' и 'fr-CA')
- Немецкий ('de-DE')
- Иврит (he-IL)
- Хинди ('hi-IN'), корейский ('ko-KR')
- Итальянский ('it-IT')
- Японский ('ja-JP')
- Норвежский ('nb-NO')
- Персидский ('fa-IR')
- Португалия португальский ("pt-PT")
- Русский ("ru-RU")
- Испанский ('es-ES' и 'es-MX')
- Шведский ('sv-SE')
- Тайский ('th-TH')
- Турецкий ('tr-TR')
Заметка
AudioAnalyzerPreset не поддерживается, если у учетной записи хранения нет доступа к общедоступной сети.
Стандартный режим AudioAnalyzerPreset
Предустановка позволяет извлечь несколько аналитических сведений об аудио из звукового или видеофайла.
Выходные данные включают JSON-файл (со всеми аналитическими сведениями) и VTT-файл для расшифровки звука. Этот предустановка принимает свойство, указывающее язык входного файла в виде строки BCP47. В состав аналитических сведений входят следующие сведения:
- транскрибирование звука: расшифровка речевых слов с метками времени. Поддерживаются несколько языков.
- ключевые слова: ключевые слова, извлеченные из транскрибирования звука.
Базовый режим AudioAnalyzerPreset
Предустановка позволяет извлечь несколько аналитических сведений об аудио из звукового или видеофайла.
Выходные данные включают JSON-файл и VTT-файл для расшифровки звука. Этот предустановка принимает свойство, указывающее язык входного файла в виде строки BCP47. Выходные данные включают:
- транскрибирование звука: расшифровка речевых слов с метками времени. Поддерживаются несколько языков, но автоматическое обнаружение языка и диаризация динамиков не включены.
- ключевые слова: ключевые слова, извлеченные из транскрибирования звука.
VideoAnalyzerPreset
Предустановка позволяет извлекать из видеофайла несколько аналитических сведений о аудио и видео. Выходные данные включают JSON-файл (со всеми аналитическими сведениями), VTT-файл для расшифровки видео и коллекцию эскизов. Эта предустановка также принимает строку BCP47 (представляющую язык видео) в качестве свойства. Аналитика видео включает в себя все описанные выше звуковые аналитические данные и следующие дополнительные элементы:
- отслеживание лиц: время, в течение которого лица присутствуют в видео. У каждого лица есть идентификатор лица и соответствующая коллекция эскизов.
- визуального текста: текст, обнаруженный с помощью оптического распознавания символов. Текст имеет метку времени, а также используется для извлечения ключевых слов (помимо транскрибирования звука).
- ключевые кадры: коллекция ключевых кадров, извлеченных из видео.
- модерация визуального содержимого: часть видео, помеченная как взрослый или греметь в природе.
- заметки: результат аннотирования видео на основе предварительно определенной объектной модели
элементы insights.json
Выходные данные включают JSON-файл (insights.json) со всеми аналитическими сведениями, найденными в видео или аудио. JSON может содержать следующие элементы:
копия
Имя | Описание |
---|---|
идентификатор | Идентификатор строки. |
СМС | Сама расшифровка. |
Язык | Язык транскрибирования. Предназначено для поддержки расшифровки, в которой каждая строка может иметь другой язык. |
Экземпляров | Список диапазонов времени, в которых появилась эта строка. Если экземпляр расшифровка является расшифровка, он будет иметь только один экземпляр. |
Пример:
"transcript": [
{
"id": 0,
"text": "Hi I'm Doug from office.",
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
}
]
},
{
"id": 1,
"text": "I have a guest. It's Michelle.",
"language": "en-US",
"instances": [
{
"start": "00:00:02.7200000",
"end": "00:00:03.9600000"
}
]
}
]
ocr
Имя | Описание |
---|---|
идентификатор | Идентификатор строки OCR. |
СМС | Текст OCR. |
уверенность | Уверенность в распознавании. |
Язык | Язык OCR. |
Экземпляров | Список диапазонов времени, в которых появился этот OCR (один и тот же OCR может отображаться несколько раз). |
"ocr": [
{
"id": 0,
"text": "LIVE FROM NEW YORK",
"confidence": 0.91,
"language": "en-US",
"instances": [
{
"start": "00:00:26",
"end": "00:00:52"
}
]
},
{
"id": 1,
"text": "NOTICIAS EN VIVO",
"confidence": 0.9,
"language": "es-ES",
"instances": [
{
"start": "00:00:26",
"end": "00:00:28"
},
{
"start": "00:00:32",
"end": "00:00:38"
}
]
}
],
Грани
Имя | Описание |
---|---|
идентификатор | Идентификатор лица. |
имя | Имя лица. Это может быть "Неизвестно #0", идентифицированная знаменитость или обученный пользователь. |
уверенность | Достоверность идентификации лиц. |
описание | Описание знаменитости. |
эскиз | Идентификатор эскиза этого лица. |
известныйPersonId | Внутренний идентификатор (если это известный человек). |
referenceId | Идентификатор Bing (если это знаменитость Bing). |
referenceType | В настоящее время просто Bing. |
титул | Название (если это знаменитость— например, генеральный директор Майкрософт). |
imageUrl | URL-адрес изображения, если это знаменитость. |
Экземпляров | Экземпляры, в которых лицо появилось в заданном диапазоне времени. Каждый экземпляр также имеет эскизыId. |
"faces": [{
"id": 2002,
"name": "Xam 007",
"confidence": 0.93844,
"description": null,
"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
"referenceId": null,
"title": null,
"imageUrl": null,
"instances": [{
"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
"adjustedStart": "00:00:07.2400000",
"adjustedEnd": "00:00:45.6780000",
"start": "00:00:07.2400000",
"end": "00:00:45.6780000"
},
{
"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
"adjustedStart": "00:10:23.9570000",
"adjustedEnd": "00:10:39.2390000",
"start": "00:10:23.9570000",
"end": "00:10:39.2390000"
}]
}]
Выстрелов
Имя | Описание |
---|---|
идентификатор | Идентификатор выстрела. |
ключевые кадры | Список ключевых кадров в снимке (каждый из них имеет идентификатор и список диапазонов времени экземпляров). Экземпляры ключевых кадров имеют поле эскиза с идентификатором эскиза кадра ключей. |
Экземпляров | Список диапазонов времени этого выстрела (выстрелы имеют только один экземпляр). |
"Shots": [
{
"id": 0,
"keyFrames": [
{
"id": 0,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.1670000",
"end": "00: 00: 00.2000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.2000000",
"end": "00: 00: 05.0330000"
}
]
},
{
"id": 1,
"keyFrames": [
{
"id": 1,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 05.3000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 10.3000000"
}
]
}
]
статистика
Имя | Описание |
---|---|
Учетная запись | Количество корреспонденций в видео. |
WordCount | Количество слов на говорящего. |
SpeakerNumberOfFragments | Количество фрагментов говорящего в видео. |
ДинамикLongestMonolog | Самый длинный монолог докладчика. Если динамик имеет молчание внутри монолога, он включен. Тишина в начале и конце монолога удаляется. |
SpeakerTalkToListenRatio | Вычисление основано на времени, затраченном на монолог докладчика (без молчания между) разделено на общее время видео. Время округляется до третьей десятичной запятой. |
Метки
Имя | Описание |
---|---|
идентификатор | Идентификатор метки. |
имя | Имя метки (например, Computer, TV). |
Язык | Язык имени метки (при переводе). BCP-47 |
Экземпляров | Список диапазонов времени, в которых появилась эта метка (метка может отображаться несколько раз). Каждый экземпляр имеет поле достоверности. |
"labels": [
{
"id": 0,
"name": "person",
"language": "en-US",
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 00.0000000",
"end": "00: 00: 25.6000000"
},
{
"confidence": 1.0,
"start": "00: 01: 33.8670000",
"end": "00: 01: 39.2000000"
}
]
},
{
"name": "indoor",
"language": "en-US",
"id": 1,
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 06.4000000",
"end": "00: 00: 07.4670000"
},
{
"confidence": 1.0,
"start": "00: 00: 09.6000000",
"end": "00: 00: 10.6670000"
},
{
"confidence": 1.0,
"start": "00: 00: 11.7330000",
"end": "00: 00: 20.2670000"
},
{
"confidence": 1.0,
"start": "00: 00: 21.3330000",
"end": "00: 00: 25.6000000"
}
]
}
]
Ключевые слова
Имя | Описание |
---|---|
идентификатор | Идентификатор ключевого слова. |
СМС | Текст ключевого слова. |
уверенность | Уверенность в распознавании ключевого слова. |
Язык | Язык ключевых слов (при переводе). |
Экземпляров | Список диапазонов времени, в которых появилось это ключевое слово (ключевое слово может отображаться несколько раз). |
"keywords": [
{
"id": 0,
"text": "office",
"confidence": 1.6666666666666667,
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
},
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
}
]
},
{
"id": 1,
"text": "icons",
"confidence": 1.4,
"language": "en-US",
"instances": [
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
},
{
"start": "00:00:13.9900000",
"end": "00:00:15.6100000"
}
]
}
]
visualContentModeration
Блок visualContentModeration содержит диапазоны времени, которые индексатор видео обнаружил, что потенциально содержит содержимое для взрослых. Если visualContentModeration пуст, содержимое для взрослых не было идентифицировано.
Видео, которые содержат содержимое для взрослых или христого содержимого, могут быть доступны только для частного просмотра. Пользователи могут отправить запрос на проверку содержимого человеком, в этом случае атрибут IsAdult
будет содержать результат проверки человека.
Имя | Описание |
---|---|
идентификатор | Идентификатор модерации визуального содержимого. |
adultScore | Оценка для взрослых (от content moderator). |
racyScore | Оценка racy (из модерации содержимого). |
Экземпляров | Список диапазонов времени, в которых появилась модерация визуального содержимого. |
"VisualContentModeration": [
{
"id": 0,
"adultScore": 0.00069,
"racyScore": 0.91129,
"instances": [
{
"start": "00:00:25.4840000",
"end": "00:00:25.5260000"
}
]
},
{
"id": 1,
"adultScore": 0.99231,
"racyScore": 0.99912,
"instances": [
{
"start": "00:00:35.5360000",
"end": "00:00:35.5780000"
}
]
}
]
Получение справки и поддержки
Вы можете обратиться к службам мультимедиа с вопросами или следовать нашим обновлениям одним из следующих методов:
- Q & A
-
стек переполнения. Пометьте вопросы с
azure-media-services
. - @MSFTAzureMedia или использовать @AzureSupport для запроса поддержки.
- Откройте запрос в службу поддержки на портале Azure.