Разработка игр с помощью службы "Речь" в Azure AI

2025-03-10

Распознавание речи СИ Azure можно использовать для улучшения различных игровых сценариев, как в игре, так и вне игры.

Ниже приведены некоторые функции распознавания речи для гибкой и интерактивной игры:

Добавьте всех в беседу, синтезируя звук из текста. Или, отображая текст из звука.
Сделать игру более доступной для игроков, которые не могут читать текст на определенном языке, включая молодых игроков, которые не читают или не пишут. Игроки могут слушать сюжетные линии и инструкции на предпочитаемом языке.
Создайте аватары игры и неигровые символы (NPC), которые могут инициировать или участвовать в беседе в игре.
Стандартный голос может обеспечить очень естественные вне коробки голоса с ведущим разнообразием голосов с точки зрения большого портфеля языков и голосов.
Пользовательский голос для создания голоса, который соответствует бренду с постоянным качеством и стилем речи. Вы можете добавить эмоции, акценты, нюансы, смех и другие лингвистические звуки и выражения.
Используйте игровой диалог прототип, чтобы сократить количество времени и денег, потраченных на продукт, чтобы получить игру на рынок раньше. Вы можете быстро переключать строки диалога и прослушивать варианты в режиме реального времени, чтобы итерировать содержимое игры.

Пакет SDK для службы "Речь" или CLI службы "Речь" можно использовать для распознавания речи в режиме реального времени с низкой задержкой в тексте, тексте в речь, идентификации языка и перевода речи. Api транскрибирования пакетной службы можно также использовать для транскрибирования предварительно записанной речи в текст. Чтобы синтезировать большой объем ввода текста (длинный и короткий) для речи, используйте API синтеза пакетной службы.

Сведения о языковом стандарте и региональной доступности см. в разделе "Поддержка языка" и "Голосовая поддержка " и "Регион".

Преобразование текста в речь

Помогите всем участникам беседы преобразовать текстовые сообщения в звук с помощью текста в речь для сценариев, таких как прототип игры, более специальные возможности или неигрываемые символы (NPC). Текстовое озвучивание включает функции стандартного голоса и пользовательского голоса. Стандартный голос может обеспечить очень естественные вне коробки голоса с ведущим разнообразием голосов с точки зрения большого портфеля языков и голосов. Пользовательский голос — это простой сервис самообслуживания для создания очень естественного персонализированного голоса.

При включении этой функции в игре помните о следующих преимуществах:

Поддерживаются голоса и языки. Поддерживается большой портфель языковых стандартов и голосов . Вы также можете указать несколько языков для выходных данных преобразования текста в речь. Для пользовательского голоса можно создать разные языки из данных обучения на одном языке.
Эмоциональные стили поддерживаются - Эмоциональные тоны, такие как веселые, сердитые, грустные, грустные, радостные, надежды, дружелюбные, неприязательные, ужасающиеся, кричать и шепнуть. Вы можете настроить стиль речи, степень стиля и роль на уровне предложения.
Поддерживаемые Visemes — вы можете использовать виземы во время синтеза в режиме реального времени для управления движением трехмерных и трехмерных моделей аватаров, чтобы движения рта идеально соответствовали искусственной речи. Дополнительные сведения см. в разделе Получение сведений о положении лица с помощью виземы.
Точное настройка текста на выходные данные речи с помощью языка разметки синтеза речи (SSML) — с помощью SSML можно настроить текст на выходные данные речи с поддержкой более полной настройки голоса. Дополнительные сведения см. в обзоре языка разметки синтеза речи (SSML).
Аудиовыходы — каждая стандартная голосовая модель доступна в 24 кГц и с высоким качеством звука 48 кГц. Если выбрать формат выходных данных 48-кГц, модель голосовой связи с высокой точностью с 48 кГц вызывается соответствующим образом. Частоты выборки, отличные от 24 кГц и 48 кГц, можно получить путем повышения или уменьшения скорости при синтезе. Например, 44,1 кГц снизилась с 48 кГц. Каждый формат звука включает в себя тип скорости и кодировки. Дополнительные сведения см. в поддерживаемых аудиоформатах. Дополнительные сведения о 48-кГц высококачественных голосах см. в этом блоге.

Пример см. в кратком руководстве по тексту для речи.

Преобразование речи в текст

Вы можете использовать речь для отображения текста из голосового звука в игре. Пример см. в кратком руководстве по тексту службы "Речь".

Идентификация языка

С помощью идентификации языка вы можете определить язык строки чата, отправленной проигрывателем.

Перевод речи

Это не необычно, что игроки в одном игровом сеансе изначально говорят на разных языках и могут оценить получение исходного сообщения и его перевода. Вы можете использовать перевод речи для перевода текста между языками, чтобы игроки по всему миру могли взаимодействовать друг с другом на своем родном языке.

Пример см. в кратком руководстве по переводу речи.

Примечание.

Помимо службы "Речь" можно также использовать службу переводчика. Сведения о выполнении перевода текста между поддерживаемыми исходными и целевыми языками в режиме реального времени см. в разделе "Перевод текста".

Поделиться через

Разработка игр с помощью службы "Речь" в Azure AI

Преобразование текста в речь

Преобразование речи в текст

Идентификация языка

Перевод речи

Следующие шаги

Обратная связь

Дополнительные ресурсы