Выбор технологии распознавания речи и создания речи в Azure AI

2025-06-21

Службы искусственного интеллекта Azure помогают проектировщикам и разработчикам рабочих нагрузок создавать интеллектуальные, передовые, готовые к выходу на рынок и ответственные приложения с помощью готовых и предварительно настроенных API и моделей.

В этой статье рассматриваются сервисы искусственного интеллекта, которые обеспечивают распознавание и создание речи, такие как преобразование речи в текст и текст в речь, аудиоперевод и распознавание говорящего. Он также включает в себя поддержку чтения для людей с различиями в обучении.

Примечание.

Чтобы собрать аналитические сведения о терминах или фразах или получить подробный контекстный анализ устного или письменного языка, см. статью "Выбор технологии обработки целевого языка для искусственного интеллекта Azure".

Службы

Следующие службы искусственного интеллекта могут предоставить возможности распознавания и генерации речи для вашей рабочей нагрузки.

Служба "Речь" с искусственным интеллектом Microsoft Azure обеспечивает обработку естественного языка для анализа текста.
- Использование Речь, когда вам нужно расшифровать или перевести устную речь и идентифицировать говорящих в разговоре. Вы также можете использовать Speech в качестве более дешевой альтернативы для генерации речи с естественным звучанием по сравнению с более качественной системой Whisper в моделях OpenAI.
- Не используйте Речь в чате, обобщение контента, модерация или руководство пользователями с помощью скриптов. Используйте другие модели для этих целей.
Иммерсивное средство чтения — это инструмент, реализующий проверенные методы для улучшения понимания чтения для новых читателей, учащихся языка и людей с различиями в обучении.
- Используйте Иммерсивное средство чтения, чтобы обеспечить улучшенную удобочитаемость, адаптированную для учащихся языка или людей с различиями в обучении.
- Не используйте Иммерсивное средство чтения для традиционных сценариев преобразования текста в речь.

Речь

Служба "Речь" предоставляет возможности преобразования речи в текст и текста в речь с помощью ресурса службы "Речь". Вы можете транскрибировать речь в текст с высокой точностью, воспроизводить естественно звучащие голоса в речь, переводить устную речь и использовать распознавание говорящего во время разговора. Создавайте настраиваемые голоса, добавляйте определенные слова в базовый словарь или разрабатывайте собственные модели. Запускайте Speech где угодно, будь то в облаке или на периферии в контейнерах.

Голосовые функции доступны для нескольких языков и регионов.

Возможности

В следующей таблице приведен список возможностей, доступных в голосовых функциях.

Возможность	Описание
Пакетное транскрибирование	Транскрибирует большой объем аудиоданных в хранилище. Как REST API преобразования речи в текст, так и интерфейс командной строки службы "Речь" поддерживают пакетное транскрибирование.
Распознавание намерений говорящего	Намерение — это то, что пользователь хочет сделать, например забронировать рейс, узнать погоду или совершить звонок. Распознавание намерений позволяет приложениям, инструментам и устройствам определять, что пользователь хочет инициировать или сделать на основе вариантов. Намерения пользователя определяются в распознавателе намерений или модели распознавания речи.
Оценка произношения	Оценивает произношение речи и дает говорящим обратную связь о точности и беглости речи.
Распознавание говорящего	Распознавание говорящего помогает определить, кто говорит в аудиоклипе. Сервис проверяет и идентифицирует говорящих по их уникальным голосовым характеристикам с помощью голосовой биометрии.
Преобразование речи в текст	Преобразует аудиопотоки в текст в режиме реального времени или при пакетной обработке.
Преобразование текста в речь	Позволяет приложениям, инструментам или устройствам преобразовывать текст в синтезированную речь, подобную человеческой.
Перевод речи	Обеспечивает перевод речи в речь на нескольких языках и перевод речи в текст аудиопотоков.
Видеотрансляции	Автоматически переводит и генерирует видео на нескольких языках.

Случаи использования

В следующей таблице описаны некоторые способы использования голосовых функций.

Вариант использования	Возможность использования	Описание
Создание звукового содержимого	Преобразование речи в текст	Сделайте взаимодействие с чат-ботами и голосовыми помощниками более естественным и увлекательным с помощью нейронных голосов. Преобразуйте цифровые тексты, такие как электронные книги, в аудиокниги и усовершенствуйте автомобильные навигационные системы.
Расшифровка разговоров в колл-центре	Преобразование речи в текст	Расшифровывайте звонки в режиме реального времени или обрабатывайте пакеты звонков, редактируйте информацию, позволяющую идентифицировать личность, и извлекайте аналитические выводы, такие как тональность, чтобы помочь вам в сценарии использования в центре обработки вызовов.
Титры	Преобразование речи в текст	Синхронизируйте субтитры с входным звуком, применяйте фильтры ненормативной лексики, получайте частичные результаты, применяйте настройки и идентифицируйте языки для многоязычных сценариев.
Обучение на языке	Преобразование речи в текст	Предоставление отзывов об оценке произношения для учащихся языка, поддержка транскрибирования в режиме реального времени для бесед удаленного обучения и чтение вслух учебных материалов с нейронными голосами.
Голосовые помощники	Преобразование текста в речь	Создавайте естественные, похожие на человеческие диалоговые интерфейсы для приложений и приложений. Функция голосового помощника обеспечивает быстрое и надежное взаимодействие между устройством и реализацией помощника.

Иммерсивное средство чтения

Иммерсивное чтение, входящее в состав сервисов искусственного интеллекта, представляет собой инклюзивный инструмент, в котором реализованы проверенные методы для улучшения понимания прочитанного новыми читателями, изучающими языки и людьми с особенностями в обучении, такими как дислексия. С помощью клиентской библиотеки Immersive Reader можно использовать ту же технологию, что и в Microsoft Word и Microsoft OneNote, чтобы предоставить расширенные возможности для пользователей рабочей нагрузки.

Возможности

Для рабочей нагрузки доступны следующие возможности, которые помогут пользователям достичь своих целей по пониманию прочитанного.

Изолируйте содержимое для улучшения читаемости.
Покажите картинки для общих слов и терминов.
Помогите понять части речи и грамматику, выделяя глаголы, существительные и местоимения.
Чтение содержимого вслух, например выбранного пользователем текста, в пользовательском интерфейсе рабочей нагрузки.
Переводите контент на многие языки в режиме реального времени. Этот метод помогает улучшить понимание читателями, изучающими новый язык.
Разбивайте слова на слоги, чтобы улучшить удобочитаемость или озвучить новые слова.

Следующие шаги

Что такое служба речи?
Схема обучения. Разработка решений обработки естественного языка с помощью служб ИИ

Поделиться через

Выбор технологии распознавания речи и создания речи в Azure AI

Службы

Речь

Возможности

Случаи использования

Иммерсивное средство чтения

Возможности

Следующие шаги

Связанные ресурсы

Обратная связь

Дополнительные ресурсы