Поделиться через


Что такое речь в тексте?

Служба "Речь ИИ Azure" предлагает расширенные возможности преобразования речи в текст. Эта функция поддерживает как транскрибирование в режиме реального времени, так и пакетное транскрибирование, предоставляя универсальные решения для преобразования аудиопотоков в текст.

Основные функции

Служба преобразования речи в текст предлагает следующие основные функции:

Речь в режиме реального времени к тексту

Речь в режиме реального времени к тексту транскрибирует звук, как он распознается с микрофона или файла. Это идеально подходит для приложений, требующих немедленного транскрибирования, таких как:

  • Транскрибирование, субтитры или субтитры для живых собраний: транскрибирование звука в режиме реального времени для специальных возможностей и хранения записей.
  • Диаризация: определение и различение разных динамиков в звуке.
  • Оценка произношения: оценка и предоставление отзывов о точности произношения.
  • Агенты центра вызовов помогают: предоставление транскрибирования в режиме реального времени для помощи представителям службы клиентов.
  • Диктовка: транскрибирование речевых слов в письменный текст для целей документации.
  • Голосовые агенты: включение интерактивных систем голосовых ответов для транскрибирования запросов и команд пользователей.

Доступ к речи в режиме реального времени можно получить с помощью пакета SDK службы "Речь", интерфейса командной строки службы "Речь" и REST API, что позволяет интегрироваться в различные приложения и рабочие процессы. Речь в реальном времени доступна с помощью пакета SDK службы "Речь", интерфейса командной строки службы "Речь" и REST API, таких как API быстрого транскрибирования.

Быстрое транскрибирование (предварительная версия)

API быстрого транскрибирования используется для расшифровки звуковых файлов с синхронно и быстрее, чем звук в режиме реального времени. Используйте быструю транскрибирование в сценариях, необходимых для расшифровки аудиозаписи как можно быстрее с прогнозируемой задержкой, например:

  • Быстрая транскрибирование звука или видео и субтитры: быстро получить транскрибирование всего видео или аудиофайла в одном пути.
  • Видеотрансляции: сразу же получите новые субтитры для видео, если у вас есть звук на разных языках.

Примечание.

API быстрого транскрибирования доступен только через речь в текстовом REST API версии 2024-05-15-preview и более поздних версий.

Чтобы приступить к работе с быстрым транскрибированием, ознакомьтесь с api быстрого транскрибирования (предварительная версия).>

API пакетного транскрибирования

Пакетное транскрибирование предназначено для транскрибирования больших объемов звука, хранящихся в файлах. Этот метод обрабатывает звук асинхронно и подходит для:

  • Транскрибирование, субтитры или субтитры для предварительно заданного звука: преобразование сохраненного звукового содержимого в текст.
  • Аналитика после вызова в центре контактов: анализ записанных вызовов для извлечения ценных аналитических сведений.
  • Диаризация: различие между динамиками в записанном звуке.

Пакетное транскрибирование доступно через:

Настраиваемая речь

С помощью пользовательской речи можно оценить и повысить точность распознавания речи для приложений и продуктов. Пользовательская модель речи может использоваться для преобразования речи в режиме реального времени в текст, перевод речи и пакетное транскрибирование.

Совет

Размещенная конечная точка развертывания не требуется для использования пользовательской речи с API транскрибирования пакетной службы. Вы можете сохранить ресурсы, если пользовательская модель речи используется только для пакетной транскрибирования. Дополнительные сведения см. в разделе Цены на службы "Речь".

Вне поля распознавание речи использует универсальную языковую модель в качестве базовой модели, которая обучена с данными, принадлежащими Майкрософт, и отражает часто используемый язык. Базовая модель предварительно обучена диалектами и фонетиками, представляющими различные общие домены. При выполнении запроса на распознавание речи по умолчанию используется последняя базовая модель для каждого поддерживаемого языка. Базовая модель хорошо работает в большинстве сценариев распознавания речи.

Настраиваемая речь позволяет адаптировать модель распознавания речи, чтобы лучше соответствовать конкретным потребностям приложения. Это может быть особенно полезно для:

  • Улучшение распознавания словаря для конкретного домена: обучение модели с текстовыми данными, соответствующими вашему полю.
  • Повышение точности для определенных условий звука: используйте звуковые данные с ссылочными транскрибированиями для уточнения модели.

Дополнительные сведения о пользовательской речи см. в обзоре пользовательской речи и документации ПО REST API для преобразования речи в текст.

Дополнительные сведения о параметрах настройки для каждого языка и языкового стандарта см . в документации по службе "Речь" на языке и голосовой поддержке.

Примеры использования

Ниже приведены некоторые практические примеры использования речи ИИ Azure для текста:

Вариант использования Сценарий Решение
Транскрибирование и субтитры в реальном времени Платформа виртуальных событий должна предоставлять субтитры в режиме реального времени для вебинаров. Интеграция речи в режиме реального времени с текстом с помощью пакета SDK службы "Речь" для транскрибирования речевых содержимого в субтитры, отображаемые в реальном времени во время события.
Улучшение обслуживания клиентов Центр обработки вызовов хочет помочь агентам, предоставляя транскрибирование клиентов в режиме реального времени. Используйте речь в режиме реального времени с помощью интерфейса командной строки службы "Речь" для транскрибирования вызовов, что позволяет агентам лучше понимать и отвечать на запросы клиентов.
Подзарядка видео Платформа размещения видео хочет быстро создать набор субтитров для видео. Используйте быструю транскрибирование, чтобы быстро получить набор субтитров для всего видео.
Учебные инструменты Платформа электронного обучения предназначена для предоставления транскрибирования для видеолекции. Примените пакетное транскрибирование с помощью речи к текстовому REST API для обработки предварительно подготовленных видео лекции, создавая расшифровки текста для учащихся.
Документация по здравоохранению Поставщик услуг здравоохранения должен документировать консультации пациентов. Используйте речь в режиме реального времени для диктовки, позволяя специалистам здравоохранения говорить свои заметки и мгновенно транскрибировать их. Используйте пользовательскую модель для улучшения распознавания конкретных медицинских терминов.
Медиа и развлечения Компания мультимедиа хочет создать субтитры для большого архива видео. Используйте пакетное транскрибирование для обработки видеофайлов в массовом режиме, создавая точные субтитры для каждого видео.
Исследования рынка Компания по исследованиям рынка должна проанализировать отзывы клиентов от аудиозаписей. Использование пакетного транскрибирования для преобразования обратной связи аудио в текст, что упрощает анализ и извлечение аналитических сведений.

Ответственное применение ИИ

Система ИИ включает не только технологию, но и людей, которые используют ее, людей, пострадавших от нее, и среды, в которой она развернута. Ознакомьтесь с заметками о прозрачности, чтобы узнать об использовании и развертывании ответственного искусственного интеллекта в системах.