Utilize a voz pessoal na sua aplicação

Artigo
06/13/2024

Você pode usar o ID do perfil do orador para sua voz pessoal para sintetizar a fala em qualquer um dos 91 idiomas suportados em 100+ localidades. Uma tag de localidade não é necessária. A voz pessoal usa a deteção automática de idioma no nível da frase.

Integre a voz pessoal na sua aplicação

Você precisa usar a linguagem de marcação de síntese de fala (SSML) para usar a voz pessoal em seu aplicativo. SSML é uma linguagem de marcação baseada em XML que fornece uma maneira padrão de marcar texto para a geração de fala sintética. As tags SSML são usadas para controlar a pronúncia, o volume, o tom, a taxa e outros atributos da saída da síntese de fala.

A speakerProfileId propriedade em SSML é usada para especificar o ID do perfil do orador para a voz pessoal.
O nome da name voz é especificado na propriedade em SSML. Para voz pessoal, o nome de voz deve ser um dos nomes de voz do modelo base suportado. Para obter uma lista de nomes de voz de modelo base suportados, use a operação BaseModels_List da API de voz personalizada.

Nota

Os nomes de voz rotulados com o Latest, como DragonLatestNeural ou PhoenixLatestNeural, serão atualizados de tempos em tempos, seu desempenho pode variar com atualizações para melhorias contínuas. Se você quiser usar uma versão fixa, selecione uma rotulada com um número de versão, como PhoenixV2Neural.
DragonLatestNeuralé um modelo base com semelhança de clonagem de voz superior em comparação com .PhoenixLatestNeural PhoenixLatestNeural é um modelo base com pronúncia mais precisa e menor latência do que DragonLatestNeural.
Para voz pessoal, você pode usar o <lang xml:lang> elemento para ajustar a linguagem falante. É o mesmo que acontece com vozes multilingues. Veja como usar o elemento lang para falar idiomas diferentes.

Veja um exemplo de SSML em uma solicitação de conversão de texto em fala com o nome da voz e o ID do perfil do orador. O exemplo também demonstra como alternar idiomas de en-US para usar zh-HK o <lang xml:lang> elemento .

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice name='DragonLatestNeural'> 
        <mstts:ttsembedding speakerProfileId='your speaker profile ID here'> 
            I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 
            <lang xml:lang='zh-HK'>我很高興聽到你覺得我很了不起，我讓你的旅行計劃更輕鬆、更有趣。</lang>
        </mstts:ttsembedding> 
    </voice> 
</speak>

Você pode usar o SSML por meio do SDK de fala ou da API REST.

Síntese de fala em tempo real: use o SDK de fala ou a API REST para converter texto em fala.
- Ao usar o SDK de fala, não defina o ID do ponto de extremidade, assim como a voz de pré-compilação.
- Quando você usa a API REST, use o ponto de extremidade de vozes neurais pré-construído.

Documentação de referência

Documentação de referência da API REST de voz personalizada

Próximos passos

Saiba mais sobre a voz neural personalizada na visão geral.
Saiba mais sobre o Speech Studio na visão geral.

Partilhar via

Utilize a voz pessoal na sua aplicação

Integre a voz pessoal na sua aplicação

Documentação de referência

Próximos passos

Comentários

Comentários

Recursos adicionais