Use a voz pessoal no seu aplicativo
É possível usar a ID do perfil do locutor da sua voz pessoal para sintetizar a fala em qualquer um dos 91 idiomas com suporte em mais de 100 localidades. Uma marca de localidade não é necessária. A voz pessoal usa a detecção automática de idioma no nível da frase.
Integrar a voz pessoal no seu aplicativo
É necessário usar a Linguagem de Marcação de Síntese de Fala (SSML) para usar a voz pessoal em seu aplicativo. A SSML é uma linguagem de marcação baseada em XML que fornece uma maneira padrão de marcar textos para a conversão de fala em texto para a geração de fala sintética. As marcas SSML são usadas para controlar a pronúncia, o volume, o tom, a taxa e outros atributos da saída da síntese de fala.
A propriedade
speakerProfileId
no SSML é usada para especificar a ID do perfil do locutor para a voz pessoal.O nome da voz é especificado na propriedade
name
no SSML. Para voz pessoal, o nome da voz deve ser um dos nomes de voz do modelo base com suporte. Para obter uma lista dos nomes de voz do modelo básico com suporte, use a operação BaseModels_List da API de voz personalizada.Observação
Os nomes de voz rotulados com o
Latest
, comoDragonLatestNeural
ouPhoenixLatestNeural
, serão atualizados de tempos em tempos; seu desempenho pode variar com atualizações para melhorias contínuas. Se você quiser usar uma versão fixa, selecione uma rotulada com um número de versão, comoPhoenixV2Neural
.DragonLatestNeural
é um modelo base com similaridade de clonagem de voz superior em comparação comPhoenixLatestNeural
.PhoenixLatestNeural
é um modelo base com pronúncia mais precisa e latência menor do queDragonLatestNeural
.Para a voz pessoal, você pode usar o elemento
<lang xml:lang>
para ajustar a linguagem de fala. É o mesmo que com vozes multilíngues. Veja como usar o elemento lang para falar idiomas diferentes.
Veja um exemplo de SSML em uma solicitação de conversão de texto em fala com o nome da voz e a ID do perfil do locutor. O exemplo também demonstra como alternar idiomas de en-US
para zh-HK
usando o elemento <lang xml:lang>
.
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='DragonLatestNeural'>
<mstts:ttsembedding speakerProfileId='your speaker profile ID here'>
I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun.
<lang xml:lang='zh-HK'>我很高興聽到你覺得我很了不起,我讓你的旅行計劃更輕鬆、更有趣。</lang>
</mstts:ttsembedding>
</voice>
</speak>
Você pode usar o SSML por meio do SDK de Fala ou da API REST.
- Síntese de fala em tempo real: use o SDK do Serviço Cognitivo do Azure para Fala ou a API REST para fazer a conversão de texto em fala.
- Quando você usar o SDK de Fala, não defina a ID do Ponto de Extremidade, assim como a voz pré-construída.
- Quando você usar a API REST, use o ponto de extremidade de vozes neurais predefinido.
Documentação de referência
Próximas etapas
- Saiba mais sobre a Voz Neural Personalizada na visão geral.
- Saiba mais sobre o Speech Studio na visão geral.
Comentários
https://aka.ms/ContentUserFeedback.
Em breve: Ao longo de 2024, eliminaremos os problemas do GitHub como o mecanismo de comentários para conteúdo e o substituiremos por um novo sistema de comentários. Para obter mais informações, consulteEnviar e exibir comentários de