Uso de voz personal en su aplicación
Puede usar el identificador del perfil de hablante para su voz personal para sintetizar la voz en cualquiera de los 91 idiomas admitidos en más de 100 configuraciones regionales. No se requiere una etiqueta de configuración regional. La voz personal usa la detección automática de idioma en el nivel de oración.
Integración de voz personal en su aplicación
Debe usar lenguaje de marcado de síntesis de voz (SSML) para usar la voz personal en la aplicación. SSML es un lenguaje de marcado basado en XML que proporciona una manera estándar de marcar texto para la generación de voz sintética. Las etiquetas SSML se usan para controlar la pronunciación, el volumen, el tono, la velocidad y otros atributos de la salida de síntesis de voz.
La propiedad
speakerProfileId
de SSML se usa para especificar el identificador de perfil del hablante para la voz personal.El nombre de voz se especifica en la propiedad
name
en SSML. Para la Voz personal, el nombre de voz debe ser uno de los modelos base admitidos. Para obtener una lista de nombres de voz del modelo base admitidos, usa la operación BaseModels_List de la API de voz personalizada.Nota:
Los nombres de voz etiquetados con
Latest
, comoDragonLatestNeural
oPhoenixLatestNeural
, se actualizarán de vez en cuando; su rendimiento puede variar con las actualizaciones de las mejoras en curso. Si quieres usar una versión fija, seleccione una etiqueta con un número de versión, comoPhoenixV2Neural
.DragonLatestNeural
es un modelo base con una similitud de clonación de voz superior en comparación conPhoenixLatestNeural
.PhoenixLatestNeural
es un modelo base con una pronunciación más precisa y menor latencia queDragonLatestNeural
.Para la voz personal, puede usar el elemento
<lang xml:lang>
para ajustar el idioma de habla. Es lo mismo que con las voces multilingües. Consulte cómo utilizar el elemento Lang para hablar diferentes idiomas.
Este es el ejemplo de SSML en una solicitud de texto a voz con el nombre de voz y el identificador del perfil del hablante. En el ejemplo también se muestra cómo cambiar los idiomas de en-US
a zh-HK
mediante el elemento <lang xml:lang>
.
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='DragonLatestNeural'>
<mstts:ttsembedding speakerProfileId='your speaker profile ID here'>
I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun.
<lang xml:lang='zh-HK'>我很高興聽到你覺得我很了不起,我讓你的旅行計劃更輕鬆、更有趣。</lang>
</mstts:ttsembedding>
</voice>
</speak>
Puede usar SSML a través de la SDK de Voz o API de REST.
- Síntesis de voz en tiempo real: use el SDK de Voz o la API de REST para convertir texto a voz.
- Al usar el SDK de Voz, no establezca el identificador de punto de conexión, al igual que la voz de pre compilación.
- Cuando use la API REST, use el punto de conexión de voces neuronales pre compiladas.
Documentación de referencia
Pasos siguientes
- Obtenga más información acerca de la voz neuronal personalizada en la información general.
- Obtenga más información sobre Speech Studio en la información general .
Comentarios
https://aka.ms/ContentUserFeedback.
Próximamente: A lo largo de 2024 iremos eliminando gradualmente GitHub Issues como mecanismo de comentarios sobre el contenido y lo sustituiremos por un nuevo sistema de comentarios. Para más información, vea:Enviar y ver comentarios de