Información general del Lenguaje de marcado de síntesis de voz (SSML)

Artículo
09/24/2024

El lenguaje de marcado de síntesis de voz (SSML) es un lenguaje de marcado basado en XML que puede utilizar para ajustar los atributos de salida de texto a voz, como el tono, la pronunciación, la velocidad de habla, el volumen, etc. Le ofrece más control y flexibilidad que la introducción de texto sin formato.

Sugerencia

Puede escuchar voces de diferentes estilos y tonos leyendo textos de ejemplo mediante la Galería de voces.

Escenarios de casos de uso

SSML está diseñado para ofrecerle flexibilidad en cuanto a cómo desea que suene su salida de voz, y proporciona diferentes propiedades para que pueda personalizar esa salida. Puede usar SSML para:

Defina la estructura del texto de entrada que determina la estructura, el contenido y otras características de la salida de texto a voz. Por ejemplo, puede usar SSML para definir un párrafo, una oración, una interrupción o pausa, o un silencio. Puede encapsular texto con etiquetas de evento, como un marcador o un viseme, que su aplicación puede procesar más tarde. Un visema es la descripción visual de un fonema, los sonidos individuales del habla.
Elija la voz, el idioma, el nombre, el estilo y el rol. Puede usar varias voces en un único documento SSML. También puede ajustar el énfasis, la velocidad de voz, el tono y el volumen. SSML también puede insertar audio pregrabado, como un efecto de sonido o una nota musical.
Controlar la pronunciación del audio de salida. Por ejemplo, puede usar SSML con fonemas y un léxico personalizado para mejorar la pronunciación. También puede usar SSML para definir cómo se pronuncia una palabra o expresión matemática.

Formas de trabajar con SSML

La funcionalidad SSML está disponible en varias herramientas que podrían adaptarse a su caso de uso.

Importante

Se le cobrará por cada carácter que se convierta a voz, incluida la puntuación. Aunque el documento SSML en sí no es facturable, el servicio cuenta como caracteres facturables los elementos opcionales que se utilizan para ajustar la conversión del texto a voz, como los fonemas y el tono. Para más información, vea la nota sobre precios.

Puede utilizar SSML de varias maneras:

La herramienta de Creación de contenido de audio le permite crear texto sin formato y SSML en Speech Studio. Puede escuchar el audio de salida y ajustar SSML para mejorar la síntesis de voz. Para más información, consulte Síntesis de voz con la herramienta Creación de contenido de audio.
La API de síntesis por lotes acepta SSML mediante la propiedad inputs.
La CLI para Voz acepta SSML a través del argumento de línea de comandos spx synthesize --ssml SSML.
El SDK para Voz acepta SSML a través del método "speak" SSML en los diferentes idiomas soportados.

Compartir vía

Información general del Lenguaje de marcado de síntesis de voz (SSML)

Escenarios de casos de uso

Formas de trabajar con SSML

Pasos siguientes

Comentarios

Recursos adicionales