Анализ видео и аудиофайлов с помощью служб мультимедиа Azure

Статья
10/02/2024

логотип служб мультимедиа версии 3

Предупреждение

Службы мультимедиа Azure будут прекращены 30 июня 2024 г. Дополнительные сведения см. в руководстве по выходу на пенсию AMS.

Важный

По мере того как корпорация Майкрософт ответственных стандартов ИИ описывает, корпорация Майкрософт стремится к справедливости, конфиденциальности, безопасности и прозрачности в отношении систем искусственного интеллекта. Чтобы соответствовать этим стандартам, Службы мультимедиа Azure отставали от предустановки Видеоанализатора 14 сентября 2023 г.. В настоящее время этот предустановленный набор позволяет извлекать из видеофайла несколько аналитических сведений о видео и аудио. Клиенты могут заменить текущие рабочие процессы с помощью более расширенного набора функций, предлагаемых индексатором видео Azure.

Службы мультимедиа позволяют извлекать аналитические сведения из видео и аудиофайлов с помощью предустановок аудиоанализатора и видеоанализатора. В этой статье описаны предустановки анализатора, используемые для извлечения аналитических сведений. Если требуется более подробная информация из видео, используйте службу индексатора видео Azure. Чтобы понять, когда используется индексатор видео и предустановки анализатора служб мультимедиа, ознакомьтесь с документом сравнения.

Существует два режима для предустановки аудиоанализатора, базовый и стандартный. См. описание различий в таблице ниже.

Чтобы проанализировать содержимое с помощью предустановок служб мультимедиа версии 3, создайте преобразования и отправьте задание, использующее один из этих предустановок: VideoAnalyzerPreset или AudioAnalyzerPreset.

Заметка

AudioAnalyzerPreset не поддерживается, если у учетной записи хранения нет доступа к общедоступной сети.

Соответствие требованиям, конфиденциальность и безопасность

Вы должны соответствовать всем применимым законам в использовании Индексатора видео, и вы не можете использовать Индексатор видео или любую другую службу Azure таким образом, чтобы нарушать права других пользователей или может быть вредно для других. Перед отправкой видео, включая биометрические данные, в службу индексатора видео для обработки и хранения, необходимо иметь все необходимые права, включая все соответствующие согласия, от отдельных лиц в видео. Чтобы узнать о соответствии требованиям, конфиденциальности и безопасности в Индексаторе видео, условияхAzure Cognitive Services. Для обязательств корпорации Майкрософт по конфиденциальности и обработки ваших данных ознакомьтесь с заявлением о конфиденциальности корпорации Майкрософт, условиями веб-служб (OST) и надстройкой обработки данных (DPA). Дополнительные сведения о конфиденциальности, в том числе о хранении данных, удалении и уничтожении, доступны в OST. Используя индексатор видео, вы соглашаетесь с условиями Cognitive Services, OST, DPA и заявлением о конфиденциальности.

Встроенные предустановки

Службы мультимедиа в настоящее время поддерживают следующие встроенные предустановки анализатора:

имя предустановки	Сценарий / режим	подробные сведения
AudioAnalyzerPreset	Анализ стандартного режима звука	Предустановка применяет предопределенный набор операций анализа на основе ИИ, включая транскрибирование речи. В настоящее время предустановка поддерживает обработку содержимого с помощью одной звуковой дорожки, содержащей речь на одном языке. Укажите язык для полезных данных звука во входных данных с помощью формата BCP-47 "language tag-region". См. список поддерживаемых языков ниже для доступных кодов языка. Автоматическое обнаружение языка выбирает первый язык, обнаруженный и продолжается с выбранным языком для всего файла, если он не задан или имеет значение NULL. Функция автоматического обнаружения языка в настоящее время поддерживает: английский, китайский, французский, немецкий, итальянский, японский, испанский, русский и бразильский португальский. Он не поддерживает динамическое переключение между языками после обнаружения первого языка. Функция автоматического обнаружения языка лучше всего работает с аудиозаписями с четко заметной речью. Если автоматическое обнаружение языка не удается найти язык, транскрибирование возвращается на английский язык.
AudioAnalyzerPreset	Анализ режима "Базовый звук"	Этот предустановленный режим выполняет транскрибирование речи к тексту и создание файла субтитров или субтитров VTT. Выходные данные этого режима включают JSON-файл Insights, включая только ключевые слова, транскрибирование и сведения о времени. Автоматическое обнаружение языка и диаризация динамиков не включены в этот режим. Список поддерживаемых языков идентичен приведенному выше стандартному режиму.
VideoAnalyzerPreset	Анализ звука и видео	Извлекает аналитические сведения (богатые метаданные) как из звука, так и видео, и выводит файл формата JSON. Можно указать, требуется ли извлекать аналитические сведения только для аудиофайла при обработке видеофайла.
FaceDetectorPreset	Обнаружение лиц, присутствующих в видео	Описывает параметры, используемые при анализе видео для обнаружения всех присутствующих лиц.

Заметка

AudioAnalyzerPreset не поддерживается, если у учетной записи хранения нет доступа к общедоступной сети.

Поддерживаемые языки

Арабский ("ar-BH", "ar-EG", "ar-IQ", "ar-JO", "ar-KW", "ar-LB", "ar-OM", "ar-QA", "ar-SA" и "ar-SY")
Бразильский португальский ('pt-BR')
Китайский ('zh-CN')
Датский('da-DK')
Английский ("en-US", "en-GB" и "en-AU")
Финский ("fi-FI")
Французский ('fr-FR' и 'fr-CA')
Немецкий ('de-DE')
Иврит (he-IL)
Хинди ('hi-IN'), корейский ('ko-KR')
Итальянский ('it-IT')
Японский ('ja-JP')
Норвежский ('nb-NO')
Персидский ('fa-IR')
Португалия португальский ("pt-PT")
Русский ("ru-RU")
Испанский ('es-ES' и 'es-MX')
Шведский ('sv-SE')
Тайский ('th-TH')
Турецкий ('tr-TR')

Заметка

AudioAnalyzerPreset не поддерживается, если у учетной записи хранения нет доступа к общедоступной сети.

Стандартный режим AudioAnalyzerPreset

Предустановка позволяет извлечь несколько аналитических сведений об аудио из звукового или видеофайла.

Выходные данные включают JSON-файл (со всеми аналитическими сведениями) и VTT-файл для расшифровки звука. Этот предустановка принимает свойство, указывающее язык входного файла в виде строки BCP47. В состав аналитических сведений входят следующие сведения:

транскрибирование звука: расшифровка речевых слов с метками времени. Поддерживаются несколько языков.
ключевые слова: ключевые слова, извлеченные из транскрибирования звука.

Базовый режим AudioAnalyzerPreset

Предустановка позволяет извлечь несколько аналитических сведений об аудио из звукового или видеофайла.

Выходные данные включают JSON-файл и VTT-файл для расшифровки звука. Этот предустановка принимает свойство, указывающее язык входного файла в виде строки BCP47. Выходные данные включают:

транскрибирование звука: расшифровка речевых слов с метками времени. Поддерживаются несколько языков, но автоматическое обнаружение языка и диаризация динамиков не включены.
ключевые слова: ключевые слова, извлеченные из транскрибирования звука.

VideoAnalyzerPreset

Предустановка позволяет извлекать из видеофайла несколько аналитических сведений о аудио и видео. Выходные данные включают JSON-файл (со всеми аналитическими сведениями), VTT-файл для расшифровки видео и коллекцию эскизов. Эта предустановка также принимает строку BCP47 (представляющую язык видео) в качестве свойства. Аналитика видео включает в себя все описанные выше звуковые аналитические данные и следующие дополнительные элементы:

отслеживание лиц: время, в течение которого лица присутствуют в видео. У каждого лица есть идентификатор лица и соответствующая коллекция эскизов.
визуального текста: текст, обнаруженный с помощью оптического распознавания символов. Текст имеет метку времени, а также используется для извлечения ключевых слов (помимо транскрибирования звука).
ключевые кадры: коллекция ключевых кадров, извлеченных из видео.
модерация визуального содержимого: часть видео, помеченная как взрослый или греметь в природе.
заметки: результат аннотирования видео на основе предварительно определенной объектной модели

элементы insights.json

Выходные данные включают JSON-файл (insights.json) со всеми аналитическими сведениями, найденными в видео или аудио. JSON может содержать следующие элементы:

копия

Имя	Описание
идентификатор	Идентификатор строки.
СМС	Сама расшифровка.
Язык	Язык транскрибирования. Предназначено для поддержки расшифровки, в которой каждая строка может иметь другой язык.
Экземпляров	Список диапазонов времени, в которых появилась эта строка. Если экземпляр расшифровка является расшифровка, он будет иметь только один экземпляр.

Пример:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

ocr

Имя	Описание
идентификатор	Идентификатор строки OCR.
СМС	Текст OCR.
уверенность	Уверенность в распознавании.
Язык	Язык OCR.
Экземпляров	Список диапазонов времени, в которых появился этот OCR (один и тот же OCR может отображаться несколько раз).

"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

Грани

Имя	Описание
идентификатор	Идентификатор лица.
имя	Имя лица. Это может быть "Неизвестно #0", идентифицированная знаменитость или обученный пользователь.
уверенность	Достоверность идентификации лиц.
описание	Описание знаменитости.
эскиз	Идентификатор эскиза этого лица.
известныйPersonId	Внутренний идентификатор (если это известный человек).
referenceId	Идентификатор Bing (если это знаменитость Bing).
referenceType	В настоящее время просто Bing.
титул	Название (если это знаменитость— например, генеральный директор Майкрософт).
imageUrl	URL-адрес изображения, если это знаменитость.
Экземпляров	Экземпляры, в которых лицо появилось в заданном диапазоне времени. Каждый экземпляр также имеет эскизыId.

"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

Выстрелов

Имя	Описание
идентификатор	Идентификатор выстрела.
ключевые кадры	Список ключевых кадров в снимке (каждый из них имеет идентификатор и список диапазонов времени экземпляров). Экземпляры ключевых кадров имеют поле эскиза с идентификатором эскиза кадра ключей.
Экземпляров	Список диапазонов времени этого выстрела (выстрелы имеют только один экземпляр).

"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

статистика

Имя	Описание
Учетная запись	Количество корреспонденций в видео.
WordCount	Количество слов на говорящего.
SpeakerNumberOfFragments	Количество фрагментов говорящего в видео.
ДинамикLongestMonolog	Самый длинный монолог докладчика. Если динамик имеет молчание внутри монолога, он включен. Тишина в начале и конце монолога удаляется.
SpeakerTalkToListenRatio	Вычисление основано на времени, затраченном на монолог докладчика (без молчания между) разделено на общее время видео. Время округляется до третьей десятичной запятой.

Метки

Имя	Описание
идентификатор	Идентификатор метки.
имя	Имя метки (например, Computer, TV).
Язык	Язык имени метки (при переводе). BCP-47
Экземпляров	Список диапазонов времени, в которых появилась эта метка (метка может отображаться несколько раз). Каждый экземпляр имеет поле достоверности.

"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

Ключевые слова

Имя	Описание
идентификатор	Идентификатор ключевого слова.
СМС	Текст ключевого слова.
уверенность	Уверенность в распознавании ключевого слова.
Язык	Язык ключевых слов (при переводе).
Экземпляров	Список диапазонов времени, в которых появилось это ключевое слово (ключевое слово может отображаться несколько раз).

"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

Блок visualContentModeration содержит диапазоны времени, которые индексатор видео обнаружил, что потенциально содержит содержимое для взрослых. Если visualContentModeration пуст, содержимое для взрослых не было идентифицировано.

Видео, которые содержат содержимое для взрослых или христого содержимого, могут быть доступны только для частного просмотра. Пользователи могут отправить запрос на проверку содержимого человеком, в этом случае атрибут IsAdult будет содержать результат проверки человека.

Имя	Описание
идентификатор	Идентификатор модерации визуального содержимого.
adultScore	Оценка для взрослых (от content moderator).
racyScore	Оценка racy (из модерации содержимого).
Экземпляров	Список диапазонов времени, в которых появилась модерация визуального содержимого.

"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Получение справки и поддержки

Вы можете обратиться к службам мультимедиа с вопросами или следовать нашим обновлениям одним из следующих методов:

Q & A
стек переполнения. Пометьте вопросы с azure-media-services.
@MSFTAzureMedia или использовать @AzureSupport для запроса поддержки.
Откройте запрос в службу поддержки на портале Azure.

Поделиться через

Анализ видео и аудиофайлов с помощью служб мультимедиа Azure

Соответствие требованиям, конфиденциальность и безопасность

Встроенные предустановки

Поддерживаемые языки

Стандартный режим AudioAnalyzerPreset

Базовый режим AudioAnalyzerPreset

VideoAnalyzerPreset

элементы insights.json

копия

ocr

Грани

Выстрелов

статистика

Метки

Ключевые слова

visualContentModeration

Получение справки и поддержки

Дополнительные ресурсы