Поделиться через


Что такое транскрибирование многоканального диаризации беседы? (предварительная версия)

Примечание.

Эта функция сейчас доступна в виде общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения на уровне обслуживания и не рекомендуется для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.

Многоканальное диаризация беседы — это речь в текстовом решении, которое обеспечивает асинхронное транскрибирование любого собрания в режиме реального времени или асинхронное транскрибирование. Эта функция объединяет распознавание речи, идентификацию говорящего и назначение предложений, чтобы определить, кто сказал, что и когда, в собрании.

Внимание

Расшифровка многоканального диаризации беседы (предварительная версия) выходит на пенсию 28 марта 2025 года. Дополнительные сведения о переходе на другие функции речи в текстовые функции см. в разделе "Миграция от транскрибирования беседы с многоканальным диаризациям".

Переход от транскрибирования беседы с многоканальной диаризации

Расшифровка многоканального диаризации беседы (предварительная версия) выходит на пенсию 28 марта 2025 года.

Чтобы продолжить использование речи для текста с диаризации, используйте следующие функции:

Эти функции преобразования речи в текст поддерживают только диаризацию для звука с одним каналом. Многоканальный звук, используемый при транскрибировании многоканального диаризации беседы, не поддерживается.

Ключевые функции

Следующие возможности функции транскрибирования бесед могут быть вам полезны:

  • Метки времени. У речевого фрагмента каждого говорящего есть метка времени, что позволяет без труда определять время произнесения фразы.
  • Удобные для чтения расшифровки. В расшифровки автоматически добавляется форматирование и пунктуация, чтобы текст точно соответствовал беседе.
  • Профили пользователей. Профили пользователей создаются путем сбора образцов голосов и последующей их отправки для создания подписей.
  • Идентификация говорящего. Говорящие идентифицируются с помощью профилей пользователей, и каждому из них назначается идентификатор говорящего.
  • Диаризация для нескольких говорящих. Позволяет определить, кто что сказал, путем синтеза звукового потока с помощью идентификатора каждого говорящего.
  • Транскрибирование в режиме реального времени: предоставьте живые расшифровки того, кто говорит, что, и когда, во время собрания происходит.
  • Асинхронное транскрибирование. Предоставляет более точные расшифровки благодаря использованию многоканального звукового потока.

Примечание.

Несмотря на то что транскрибирование бесед не ограничивает число говорящих в помещении, оно оптимизировано для 2–10 говорящих за сеанс.

Случаи использования

Чтобы сделать собрания включительно для всех, таких как участники, которые глухие и трудно услышаны, важно иметь транскрибирование в режиме реального времени. Транскрибирование бесед в режиме реального времени принимает аудиозапись собрания и определяет, кто что говорит, благодаря чему все участники собрания могут следить за расшифровкой и без задержки принимать участие в собрании.

Участники собрания могут сосредоточиться на собрании, а ведение записей оставить решению транскрибирования бесед. Участники могут активно принимать участие в собрании и быстро переходить к дальнейшим действиям с помощью расшифровки. Самостоятельно вести во время собрания записи, в которых сложно ничего не упустить, больше не нужно.

Принцип работы

На следующей схеме представлено обобщенное описание работы функции.

Схема: взаимосвязь между различными частями решения для транскрибирования бесед.

Ожидаемые входные данные

Функция транскрибирования бесед использует два типа входных данных:

  • Многоканальный аудиопоток. Дополнительные сведения о спецификации и проектировании см. в статье Рекомендации по микрофонной решетке.
  • Образцы голосов пользователей. Транскрибированию бесед необходимо получить профили пользователей до начала беседы, чтобы идентифицировать говорящих. Соберите аудиозаписи у всех пользователей, а затем отправьте записи в службу создания подписей для проверки звука и создания профилей пользователей.

Чтобы идентифицировать говорящих, требуются образцы голосов пользователей для голосовых подписей. Говорящие, для которых нет образцов голоса, обозначаются как неопознанные. Неопознанных говорящих можно различать, если включено свойство DifferentiateGuestSpeakers (см. следующий пример). Затем выходные данные транскрибирования отображают динамики как, например, Guest_0 и Guest_1, а не распознавать их как предварительно созданные имена говорящего.

config.SetProperty("DifferentiateGuestSpeakers", "true");

Режим реального времени или асинхронный

В следующих разделах приводятся дополнительные сведения о режимах транскрибирования, которые можно выбрать.

Реальное время

Звуковые данные обрабатываются в реальном времени, чтобы возвращать идентификатор говорящего и расшифровку. Выберите этот режим, если требование к решению транскрибирования — предоставить участникам собрания представление динамической расшифровки текущего собрания. Например, создание приложения с целью повышения удобства собраний для глухих и лиц с нарушениями слуха — это идеальный вариант использования транскрибирования в реальном времени.

Асинхронный

Выполняется пакетная обработка звуковых данных для возврата идентификатора говорящего и расшифровки. Этот режим следует выбирать, если решение транскрибирования требует обеспечить более высокую точность без представления расшифровки в реальном времени. Например, если вы хотите создать приложение, позволяющее участникам собрания без проблем получать информацию с пропущенных собраний, используйте режим асинхронного транскрибирования для получения результатов расшифровки высокой точности.

Транскрибирование в реальном времени и асинхронное транскрибирование

Звуковые данные обрабатываются в реальном времени для возврата идентификатора говорящего и расшифровки. Кроме того, отправляется запрос на получение расшифровки высокой точности путем асинхронной обработки. Выберите этот режим, если у приложения есть необходимость транскрибирования в режиме реального времени, а также требуется более высокая точность расшифровки для использования после собрания.

Поддержка языков и региональных параметров

В настоящее время транскрибирование бесед поддерживает все языки речи на текстовые языки в следующих регионах: centralus, , eastasiaeastus. westeurope