Uso de voz personal en su aplicación

Artículo
06/19/2024

Puede usar el identificador del perfil de hablante para su voz personal para sintetizar la voz en cualquiera de los 91 idiomas admitidos en más de 100 configuraciones regionales. No se requiere una etiqueta de configuración regional. La voz personal usa la detección automática de idioma en el nivel de oración.

Integración de voz personal en su aplicación

Debe usar lenguaje de marcado de síntesis de voz (SSML) para usar la voz personal en la aplicación. SSML es un lenguaje de marcado basado en XML que proporciona una manera estándar de marcar texto para la generación de voz sintética. Las etiquetas SSML se usan para controlar la pronunciación, el volumen, el tono, la velocidad y otros atributos de la salida de síntesis de voz.

La propiedad speakerProfileId de SSML se usa para especificar el identificador de perfil del hablante para la voz personal.
El nombre de voz se especifica en la propiedad name en SSML. Para la Voz personal, el nombre de voz debe ser uno de los modelos base admitidos. Para obtener una lista de nombres de voz del modelo base admitidos, usa la operación BaseModels_List de la API de voz personalizada.

Nota:

Los nombres de voz etiquetados con Latest, como DragonLatestNeural o PhoenixLatestNeural, se actualizarán de vez en cuando; su rendimiento puede variar con las actualizaciones de las mejoras en curso. Si quieres usar una versión fija, seleccione una etiqueta con un número de versión, como PhoenixV2Neural.
DragonLatestNeural es un modelo base con una similitud de clonación de voz superior en comparación con PhoenixLatestNeural. PhoenixLatestNeural es un modelo base con una pronunciación más precisa y menor latencia que DragonLatestNeural.
Para la voz personal, puede usar el elemento<lang xml:lang> para ajustar el idioma de habla. Es lo mismo que con las voces multilingües. Consulte cómo utilizar el elemento Lang para hablar diferentes idiomas.

Este es el ejemplo de SSML en una solicitud de texto a voz con el nombre de voz y el identificador del perfil del hablante. En el ejemplo también se muestra cómo cambiar los idiomas de en-US a zh-HK mediante el elemento <lang xml:lang>.

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice name='DragonLatestNeural'> 
        <mstts:ttsembedding speakerProfileId='your speaker profile ID here'> 
            I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 
            <lang xml:lang='zh-HK'>我很高興聽到你覺得我很了不起，我讓你的旅行計劃更輕鬆、更有趣。</lang>
        </mstts:ttsembedding> 
    </voice> 
</speak>

Puede usar SSML a través de la SDK de Voz o API de REST.

Síntesis de voz en tiempo real: use el SDK de Voz o la API de REST para convertir texto a voz.
- Al usar el SDK de Voz, no establezca el identificador de punto de conexión, al igual que la voz de pre compilación.
- Cuando use la API REST, use el punto de conexión de voces neuronales pre compiladas.

Documentación de referencia

Documentación de referencia de la API REST de Voz personalizada

Pasos siguientes

Obtenga más información acerca de la voz neuronal personalizada en la información general.
Obtenga más información sobre Speech Studio en la información general .

Compartir a través de

Uso de voz personal en su aplicación

Integración de voz personal en su aplicación

Documentación de referencia

Pasos siguientes

Comentarios

Comentarios

Recursos adicionales