Поделиться через


Разработка игр с помощью службы "Речь" в Azure AI

Распознавание речи СИ Azure можно использовать для улучшения различных игровых сценариев, как в игре, так и вне игры.

Ниже приведены некоторые функции распознавания речи для гибкой и интерактивной игры:

  • Добавьте всех в беседу, синтезируя звук из текста. Или, отображая текст из звука.
  • Сделать игру более доступной для игроков, которые не могут читать текст на определенном языке, включая молодых игроков, которые не читают или не пишут. Игроки могут слушать сюжетные линии и инструкции на предпочитаемом языке.
  • Создайте аватары игры и неигровые символы (NPC), которые могут инициировать или участвовать в беседе в игре.
  • Стандартный голос может обеспечить очень естественные вне коробки голоса с ведущим разнообразием голосов с точки зрения большого портфеля языков и голосов.
  • Пользовательский голос для создания голоса, который соответствует бренду с постоянным качеством и стилем речи. Вы можете добавить эмоции, акценты, нюансы, смех и другие лингвистические звуки и выражения.
  • Используйте игровой диалог прототип, чтобы сократить количество времени и денег, потраченных на продукт, чтобы получить игру на рынок раньше. Вы можете быстро переключать строки диалога и прослушивать варианты в режиме реального времени, чтобы итерировать содержимое игры.

Пакет SDK для службы "Речь" или CLI службы "Речь" можно использовать для распознавания речи в режиме реального времени с низкой задержкой в тексте, тексте в речь, идентификации языка и перевода речи. Api транскрибирования пакетной службы можно также использовать для транскрибирования предварительно записанной речи в текст. Чтобы синтезировать большой объем ввода текста (длинный и короткий) для речи, используйте API синтеза пакетной службы.

Сведения о языковом стандарте и региональной доступности см. в разделе "Поддержка языка" и "Голосовая поддержка " и "Регион".

Преобразование текста в речь

Помогите всем участникам беседы преобразовать текстовые сообщения в звук с помощью текста в речь для сценариев, таких как прототип игры, более специальные возможности или неигрываемые символы (NPC). Текстовое озвучивание включает функции стандартного голоса и пользовательского голоса. Стандартный голос может обеспечить очень естественные вне коробки голоса с ведущим разнообразием голосов с точки зрения большого портфеля языков и голосов. Пользовательский голос — это простой сервис самообслуживания для создания очень естественного персонализированного голоса.

При включении этой функции в игре помните о следующих преимуществах:

  • Поддерживаются голоса и языки. Поддерживается большой портфель языковых стандартов и голосов . Вы также можете указать несколько языков для выходных данных преобразования текста в речь. Для пользовательского голоса можно создать разные языки из данных обучения на одном языке.
  • Эмоциональные стили поддерживаются - Эмоциональные тоны, такие как веселые, сердитые, грустные, грустные, радостные, надежды, дружелюбные, неприязательные, ужасающиеся, кричать и шепнуть. Вы можете настроить стиль речи, степень стиля и роль на уровне предложения.
  • Поддерживаемые Visemes — вы можете использовать виземы во время синтеза в режиме реального времени для управления движением трехмерных и трехмерных моделей аватаров, чтобы движения рта идеально соответствовали искусственной речи. Дополнительные сведения см. в разделе Получение сведений о положении лица с помощью виземы.
  • Точное настройка текста на выходные данные речи с помощью языка разметки синтеза речи (SSML) — с помощью SSML можно настроить текст на выходные данные речи с поддержкой более полной настройки голоса. Дополнительные сведения см. в обзоре языка разметки синтеза речи (SSML).
  • Аудиовыходы — каждая стандартная голосовая модель доступна в 24 кГц и с высоким качеством звука 48 кГц. Если выбрать формат выходных данных 48-кГц, модель голосовой связи с высокой точностью с 48 кГц вызывается соответствующим образом. Частоты выборки, отличные от 24 кГц и 48 кГц, можно получить путем повышения или уменьшения скорости при синтезе. Например, 44,1 кГц снизилась с 48 кГц. Каждый формат звука включает в себя тип скорости и кодировки. Дополнительные сведения см. в поддерживаемых аудиоформатах. Дополнительные сведения о 48-кГц высококачественных голосах см. в этом блоге.

Пример см. в кратком руководстве по тексту для речи.

Преобразование речи в текст

Вы можете использовать речь для отображения текста из голосового звука в игре. Пример см. в кратком руководстве по тексту службы "Речь".

Идентификация языка

С помощью идентификации языка вы можете определить язык строки чата, отправленной проигрывателем.

Перевод речи

Это не необычно, что игроки в одном игровом сеансе изначально говорят на разных языках и могут оценить получение исходного сообщения и его перевода. Вы можете использовать перевод речи для перевода текста между языками, чтобы игроки по всему миру могли взаимодействовать друг с другом на своем родном языке.

Пример см. в кратком руководстве по переводу речи.

Примечание.

Помимо службы "Речь" можно также использовать службу переводчика. Сведения о выполнении перевода текста между поддерживаемыми исходными и целевыми языками в режиме реального времени см. в разделе "Перевод текста".

Следующие шаги