Поделиться через


Использование личного голоса в приложении

Вы можете использовать идентификатор профиля говорящего для личного голоса для синтеза речи на любом из 91 языков, поддерживаемых в 100+ языковых стандартах. Не требуется тег языкового стандарта. Личный голос использует автоматическое обнаружение языка на уровне предложения.

Интеграция личного голоса в приложении

Для использования личного голоса в приложении необходимо использовать язык разметки синтеза речи (SSML ). SSML — это язык разметки на основе XML, который предоставляет стандартный способ разметки текста для создания искусственной речи. Теги SSML используются для управления произношением, громкости, шагом, скоростью и другими атрибутами выходных данных синтеза речи.

  • Свойство speakerProfileId в SSML используется для указания идентификатора профиля говорящего для личного голоса.

  • Имя голоса указывается в свойстве name SSML. Для личного голоса имя голоса должно быть одним из поддерживаемых имен голосовой модели базовой модели. Чтобы получить список поддерживаемых имен голосовой связи базовой модели, используйте BaseModels_List операцию пользовательского API голосовой связи.

    Примечание.

    Имена голосов, помеченные Latestтаким DragonLatestNeuralPhoenixLatestNeuralобразом, будут обновляться от времени. Его производительность может отличаться от обновлений для текущих улучшений. Если вы хотите использовать фиксированную версию, выберите одну метку с номером версии, например PhoenixV2Neural.

  • DragonLatestNeural — это базовая модель с превосходным клонированием голоса по сравнению PhoenixLatestNeuralс . PhoenixLatestNeural является базовой моделью с более точным произношением и более низкой задержкой, чем DragonLatestNeural.

  • Для личного голоса можно использовать <lang xml:lang> элемент для настройки языка речи. Это то же самое, что и многоязычные голоса. Узнайте , как использовать элемент lang для говорить на разных языках.

Ниже приведен пример SSML в запросе на речь с именем голоса и идентификатором профиля говорящего. В этом примере также показано, как переключаться с языка на en-USzh-HK использование <lang xml:lang> элемента.

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice name='DragonLatestNeural'> 
        <mstts:ttsembedding speakerProfileId='your speaker profile ID here'> 
            I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 
            <lang xml:lang='zh-HK'>我很高興聽到你覺得我很了不起,我讓你的旅行計劃更輕鬆、更有趣。</lang>
        </mstts:ttsembedding> 
    </voice> 
</speak>

SSML можно использовать с помощью пакета SDK службы "Речь" или REST API.

  • Синтез речи в режиме реального времени: используйте пакет SDK службы "Речь" или REST API для преобразования текста в речь.
    • При использовании пакета SDK службы "Речь" не устанавливайте идентификатор конечной точки, как и для предварительной сборки голоса.
    • При использовании REST API используйте предварительно созданную конечную точку нейронных голосов.

Справочная документация

Следующие шаги

  • Дополнительные сведения о пользовательском нейронном голосе см. в обзоре.
  • Дополнительные сведения о Speech Studio см. в обзоре.