Utilize a voz pessoal na sua aplicação
Você pode usar o ID do perfil do orador para sua voz pessoal para sintetizar a fala em qualquer um dos 91 idiomas suportados em 100+ localidades. Uma tag de localidade não é necessária. A voz pessoal usa a deteção automática de idioma no nível da frase.
Integre a voz pessoal na sua aplicação
Você precisa usar a linguagem de marcação de síntese de fala (SSML) para usar a voz pessoal em seu aplicativo. SSML é uma linguagem de marcação baseada em XML que fornece uma maneira padrão de marcar texto para a geração de fala sintética. As tags SSML são usadas para controlar a pronúncia, o volume, o tom, a taxa e outros atributos da saída da síntese de fala.
A
speakerProfileId
propriedade em SSML é usada para especificar o ID do perfil do orador para a voz pessoal.O nome da
name
voz é especificado na propriedade em SSML. Para voz pessoal, o nome de voz deve ser um dos nomes de voz do modelo base suportado. Para obter uma lista de nomes de voz de modelo base suportados, use a operação BaseModels_List da API de voz personalizada.Nota
Os nomes de voz rotulados com o
Latest
, comoDragonLatestNeural
ouPhoenixLatestNeural
, serão atualizados de tempos em tempos, seu desempenho pode variar com atualizações para melhorias contínuas. Se você quiser usar uma versão fixa, selecione uma rotulada com um número de versão, comoPhoenixV2Neural
.DragonLatestNeural
é um modelo base com semelhança de clonagem de voz superior em comparação com .PhoenixLatestNeural
PhoenixLatestNeural
é um modelo base com pronúncia mais precisa e menor latência do queDragonLatestNeural
.Para voz pessoal, você pode usar o
<lang xml:lang>
elemento para ajustar a linguagem falante. É o mesmo que acontece com vozes multilingues. Veja como usar o elemento lang para falar idiomas diferentes.
Veja um exemplo de SSML em uma solicitação de conversão de texto em fala com o nome da voz e o ID do perfil do orador. O exemplo também demonstra como alternar idiomas de en-US
para usar zh-HK
o <lang xml:lang>
elemento .
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='DragonLatestNeural'>
<mstts:ttsembedding speakerProfileId='your speaker profile ID here'>
I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun.
<lang xml:lang='zh-HK'>我很高興聽到你覺得我很了不起,我讓你的旅行計劃更輕鬆、更有趣。</lang>
</mstts:ttsembedding>
</voice>
</speak>
Você pode usar o SSML por meio do SDK de fala ou da API REST.
- Síntese de fala em tempo real: use o SDK de fala ou a API REST para converter texto em fala.
- Ao usar o SDK de fala, não defina o ID do ponto de extremidade, assim como a voz de pré-compilação.
- Quando você usa a API REST, use o ponto de extremidade de vozes neurais pré-construído.
Documentação de referência
Próximos passos
- Saiba mais sobre a voz neural personalizada na visão geral.
- Saiba mais sobre o Speech Studio na visão geral.
Comentários
https://aka.ms/ContentUserFeedback.
Brevemente: Ao longo de 2024, vamos descontinuar progressivamente o GitHub Issues como mecanismo de feedback para conteúdos e substituí-lo por um novo sistema de feedback. Para obter mais informações, veja:Submeter e ver comentários