Compartir vía


Información general del Lenguaje de marcado de síntesis de voz (SSML)

El lenguaje de marcado de síntesis de voz (SSML) es un lenguaje de marcado basado en XML que puede utilizar para ajustar los atributos de salida de texto a voz, como el tono, la pronunciación, la velocidad de habla, el volumen, etc. Le ofrece más control y flexibilidad que la introducción de texto sin formato.

Sugerencia

Puede escuchar voces de diferentes estilos y tonos leyendo textos de ejemplo mediante la Galería de voces.

Escenarios de casos de uso

SSML está diseñado para ofrecerle flexibilidad en cuanto a cómo desea que suene su salida de voz, y proporciona diferentes propiedades para que pueda personalizar esa salida. Puede usar SSML para:

  • Defina la estructura del texto de entrada que determina la estructura, el contenido y otras características de la salida de texto a voz. Por ejemplo, puede usar SSML para definir un párrafo, una oración, una interrupción o pausa, o un silencio. Puede encapsular texto con etiquetas de evento, como un marcador o un viseme, que su aplicación puede procesar más tarde. Un visema es la descripción visual de un fonema, los sonidos individuales del habla.
  • Elija la voz, el idioma, el nombre, el estilo y el rol. Puede usar varias voces en un único documento SSML. También puede ajustar el énfasis, la velocidad de voz, el tono y el volumen. SSML también puede insertar audio pregrabado, como un efecto de sonido o una nota musical.
  • Controlar la pronunciación del audio de salida. Por ejemplo, puede usar SSML con fonemas y un léxico personalizado para mejorar la pronunciación. También puede usar SSML para definir cómo se pronuncia una palabra o expresión matemática.

Formas de trabajar con SSML

La funcionalidad SSML está disponible en varias herramientas que podrían adaptarse a su caso de uso.

Importante

Se le cobrará por cada carácter que se convierta a voz, incluida la puntuación. Aunque el documento SSML en sí no es facturable, el servicio cuenta como caracteres facturables los elementos opcionales que se utilizan para ajustar la conversión del texto a voz, como los fonemas y el tono. Para más información, vea la nota sobre precios.

Puede utilizar SSML de varias maneras:

Pasos siguientes