Compartilhar via


Use a voz pessoal no seu aplicativo

É possível usar a ID do perfil do locutor da sua voz pessoal para sintetizar a fala em qualquer um dos 91 idiomas com suporte em mais de 100 localidades. Uma marca de localidade não é necessária. A voz pessoal usa a detecção automática de idioma no nível da frase.

Integrar a voz pessoal no seu aplicativo

É necessário usar a Linguagem de Marcação de Síntese de Fala (SSML) para usar a voz pessoal em seu aplicativo. A SSML é uma linguagem de marcação baseada em XML que fornece uma maneira padrão de marcar textos para a conversão de fala em texto para a geração de fala sintética. As marcas SSML são usadas para controlar a pronúncia, o volume, o tom, a taxa e outros atributos da saída da síntese de fala.

  • A propriedade speakerProfileId no SSML é usada para especificar a ID do perfil do locutor para a voz pessoal.

  • O nome da voz é especificado na propriedade name no SSML. Para voz pessoal, o nome da voz deve ser um dos nomes de voz do modelo base com suporte. Para obter uma lista dos nomes de voz do modelo básico com suporte, use a operação BaseModels_List da API de voz personalizada.

    Observação

    Os nomes de voz rotulados com o Latest, como DragonLatestNeural ou PhoenixLatestNeural, serão atualizados de tempos em tempos; seu desempenho pode variar com atualizações para melhorias contínuas. Se você quiser usar uma versão fixa, selecione uma rotulada com um número de versão, como PhoenixV2Neural.

  • DragonLatestNeural é um modelo base com similaridade de clonagem de voz superior em comparação com PhoenixLatestNeural. PhoenixLatestNeural é um modelo base com pronúncia mais precisa e latência menor do que DragonLatestNeural.

  • Para a voz pessoal, você pode usar o elemento <lang xml:lang> para ajustar a linguagem de fala. É o mesmo que com vozes multilíngues. Veja como usar o elemento lang para falar idiomas diferentes.

Veja um exemplo de SSML em uma solicitação de conversão de texto em fala com o nome da voz e a ID do perfil do locutor. O exemplo também demonstra como alternar idiomas de en-US para zh-HK usando o elemento <lang xml:lang>.

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice name='DragonLatestNeural'> 
        <mstts:ttsembedding speakerProfileId='your speaker profile ID here'> 
            I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 
            <lang xml:lang='zh-HK'>我很高興聽到你覺得我很了不起,我讓你的旅行計劃更輕鬆、更有趣。</lang>
        </mstts:ttsembedding> 
    </voice> 
</speak>

Você pode usar o SSML por meio do SDK de Fala ou da API REST.

  • Síntese de fala em tempo real: use o SDK do Serviço Cognitivo do Azure para Fala ou a API REST para fazer a conversão de texto em fala.
    • Quando você usar o SDK de Fala, não defina a ID do Ponto de Extremidade, assim como a voz pré-construída.
    • Quando você usar a API REST, use o ponto de extremidade de vozes neurais predefinido.

Documentação de referência

Próximas etapas