Uso de voz personal en su aplicación

Artículo
09/26/2024

Puede usar el identificador del perfil de hablante para su voz personal para sintetizar la voz en cualquiera de los 91 idiomas admitidos en más de 100 configuraciones regionales. No se requiere una etiqueta de configuración regional. La voz personal usa la detección automática de idioma en el nivel de oración.

Integración de voz personal en su aplicación

Debe usar lenguaje de marcado de síntesis de voz (SSML) para usar la voz personal en la aplicación. SSML es un lenguaje de marcado basado en XML que proporciona una manera estándar de marcar texto para la generación de voz sintética. Las etiquetas SSML se usan para controlar la pronunciación, el volumen, el tono, la velocidad y otros atributos de la salida de síntesis de voz.

La propiedad speakerProfileId de SSML se usa para especificar el identificador de perfil del hablante para la voz personal.
El nombre de voz se especifica en la propiedad name en SSML. Para la Voz personal, el nombre de voz debe ser uno de los modelos base admitidos. Para obtener una lista de nombres de voz del modelo base admitidos, usa la operación BaseModels_List de la API de voz personalizada.

Nota:

Los nombres de voz etiquetados con Latest, como DragonLatestNeural o PhoenixLatestNeural, se actualizarán de vez en cuando; su rendimiento puede variar con las actualizaciones de las mejoras en curso. Si quieres usar una versión fija, seleccione una etiqueta con un número de versión, como PhoenixV2Neural.
DragonLatestNeural es un modelo base con una similitud de clonación de voz superior en comparación con PhoenixLatestNeural. PhoenixLatestNeural es un modelo base con una pronunciación más precisa y menor latencia que DragonLatestNeural.
Para la voz personal, puede usar el elemento<lang xml:lang> para ajustar el idioma de habla. Es lo mismo que con las voces multilingües. Consulte cómo utilizar el elemento Lang para hablar diferentes idiomas.

Este es el ejemplo de SSML en una solicitud de texto a voz con el nombre de voz y el identificador del perfil del hablante. En el ejemplo también se muestra cómo cambiar los idiomas de en-US a zh-HK mediante el elemento <lang xml:lang>.

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice name='DragonLatestNeural'> 
        <mstts:ttsembedding speakerProfileId='your speaker profile ID here'> 
            I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 
            <lang xml:lang='zh-HK'>我很高興聽到你覺得我很了不起，我讓你的旅行計劃更輕鬆、更有趣。</lang>
        </mstts:ttsembedding> 
    </voice> 
</speak>

Puede usar SSML a través de la SDK de Voz o API de REST.

Síntesis de voz en tiempo real: use el SDK de Voz o la API de REST para convertir texto a voz.
- Al usar el SDK de Voz, no establezca el identificador de punto de conexión, al igual que la voz de precompilación.
- Cuando use la API REST, use el punto de conexión de voces neuronales pre compiladas.

Elementos SSML admitidos y no admitidos para voz personal

Para obtener información detallada sobre los elementos SSML admitidos y no admitidos para los modelos Phoenix y Dragon, consulte la siguiente tabla. Para obtener instrucciones sobre cómo usar elementos SSML, consulte la estructura y los eventos del documento SSML.

Elemento	Descripción	Compatibles con Phoenix	Compatible con Dragon
`<voice>`	Especifica la voz y los efectos opcionales (`eq_car` y `eq_telecomhp8k`).	Sí	Sí
`<mstts:express-as>`	Especifica los estilos de habla y los roles.	No	No
`<mstts:ttsembedding>`	Especifica la propiedad `speakerProfileId` para una voz personal.	Sí	Sí
`<lang xml:lang>`	Especifica el idioma de habla.	Sí	Sí
`<prosody>`	Ajusta el tono, el contorno, el intervalo, la velocidad y el volumen.
`pitch`	Indica el tono de la línea de referencia del texto.	No	No
`contour`	Representa los cambios en el tono.	No	No
`range`	Representa el intervalo de tono del texto.	No	No
`rate`	Indica la velocidad de habla del texto.	Sí	Sí
`volume`	Indica el nivel de volumen de la voz.	No	No
`<emphasis>`	Agrega o suprime el acento en las palabras del texto.	No	No
`<audio>`	Inserta audio pregrabado en un documento SSML.	Sí	No
`<mstts:audioduration>`	Especifica la duración del audio de salida.	No	No
`<mstts:backgroundaudio>`	Agrega audio en segundo plano a los documentos SSML o combina un archivo de audio con texto a voz.	Sí	No
`<phoneme>`	Especifica la pronunciación fonética en documentos SSML.
`ipa`	Uno de los alfabetos fonéticos.	Sí	No
`sapi`	Uno de los alfabetos fonéticos.	No	No
`ups`	Uno de los alfabetos fonéticos.	Sí	No
`x-sampa`	Uno de los alfabetos fonéticos.	Sí	No
`<lexicon>`	Define cómo se leen varias entidades en SSML.	Sí	Sí (solo admite alias)
`<say-as>`	Indica el tipo de contenido (por ejemplo, un número o una fecha) del texto del elemento.	Sí	Sí
`<sub>`	Indica que el valor de texto del atributo del alias debe pronunciarse en lugar del texto incluido del elemento.	Sí	Sí
`<math>`	Usa MathML como texto de entrada para pronunciar correctamente notaciones matemáticas en el audio de salida.	Sí	No
`<bookmark>`	Obtiene el desplazamiento de cada marcador de la secuencia de audio.	Sí	No
`<break>`	Invalida el comportamiento predeterminado de saltos o pausas entre palabras.	Sí	Sí
`<mstts:silence>`	Las inserciones se pausan antes o después del texto, o entre dos oraciones adyacentes.	Sí	No
`<mstts:viseme>`	Define la posición de la cara y la boca cuando una persona habla.	Sí	No
`<p>`	Denota párrafos en documentos SSML.	Sí	Sí
`<s>`	Denota oraciones en documentos SSML.	Sí	Sí

Características del SDK compatibles y no compatibles para voz personal

En la siguiente tabla se describen las características del SDK compatibles con los modelos Phoenix y Dragon. Para obtener más información sobre cómo usar estas características del SDK en las aplicaciones, consulte Suscribirse a eventos de sintetizador.

Características del SDK	Descripción	Compatibles con Phoenix	Compatibles con Dragon
Límite de palabra	Indica que se ha recibido un límite de palabras durante la síntesis, proporcionando una sincronización precisa de las palabras durante el proceso de síntesis de voz.	Sí	No
Eventos del visema	Proporciona información del visema (labios, mandíbula y movimiento de la lengua) durante la síntesis, lo que permite la sincronización visual.	Sí	No

Documentación de referencia

Documentación de referencia de la API REST de Voz personalizada

Pasos siguientes

Obtenga más información acerca de la voz neuronal personalizada en la información general.
Obtenga más información sobre Speech Studio en la información general .

Compartir a través de