Share via


Uso de voz personal en su aplicación

Puede usar el identificador del perfil de hablante para su voz personal para sintetizar la voz en cualquiera de los 91 idiomas admitidos en más de 100 configuraciones regionales. No se requiere una etiqueta de configuración regional. La voz personal usa la detección automática de idioma en el nivel de oración.

Integración de voz personal en su aplicación

Debe usar lenguaje de marcado de síntesis de voz (SSML) para usar la voz personal en la aplicación. SSML es un lenguaje de marcado basado en XML que proporciona una manera estándar de marcar texto para la generación de voz sintética. Las etiquetas SSML se usan para controlar la pronunciación, el volumen, el tono, la velocidad y otros atributos de la salida de síntesis de voz.

  • La propiedad speakerProfileId de SSML se usa para especificar el identificador de perfil del hablante para la voz personal.

  • El nombre de voz se especifica en la propiedad name en SSML. Para la Voz personal, el nombre de voz debe ser uno de los modelos base admitidos. Para obtener una lista de nombres de voz del modelo base admitidos, usa la operación BaseModels_List de la API de voz personalizada.

    Nota:

    Los nombres de voz etiquetados con Latest, como DragonLatestNeural o PhoenixLatestNeural, se actualizarán de vez en cuando; su rendimiento puede variar con las actualizaciones de las mejoras en curso. Si quieres usar una versión fija, seleccione una etiqueta con un número de versión, como PhoenixV2Neural.

  • DragonLatestNeural es un modelo base con una similitud de clonación de voz superior en comparación con PhoenixLatestNeural. PhoenixLatestNeural es un modelo base con una pronunciación más precisa y menor latencia que DragonLatestNeural.

  • El modelo Dragon no admite el elemento <lang xml:lang> en SSML.

Este es el ejemplo de SSML en una solicitud de texto a voz con el nombre de voz y el identificador del perfil del hablante.

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice name='DragonLatestNeural'> 
    <mstts:ttsembedding speakerProfileId='your speaker profile ID here'> 
    I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 我很高兴听到你觉得我很了不起,我让你的旅行计划更轻松、更有趣。Je suis heureux d'apprendre que vous me trouvez incroyable et que j'ai rendu la planification de votre voyage plus facile et plus amusante.  
    </mstts:ttsembedding> 
    </voice> 
</speak> 

Puede usar SSML a través de la SDK de Voz o API de REST.

  • Síntesis de voz en tiempo real: use el SDK de Voz o la API de REST para convertir texto a voz.
    • Al usar el SDK de Voz, no establezca el identificador de punto de conexión, al igual que la voz de pre compilación.
    • Cuando use la API REST, use el punto de conexión de voces neuronales pre compiladas.

Documentación de referencia

Pasos siguientes