¿Qué son las voces de alta definición?

2025-04-18

Azure AI Speech sigue avanzando en el área de la tecnología de texto a voz con la introducción de voces neuronales de alta definición (HD). Las voces HD pueden comprender el contenido, detectar automáticamente las emociones en el texto de entrada y ajustar el tono de habla en tiempo real para que coincida con la opinión. Las voces HD mantienen un rol de voz coherente a partir de sus homólogos neuronales (y no HD), y ofrecen aún más valor mediante características mejoradas.

Características clave de las voces HD neurales de texto a voz

A continuación se muestran las características clave de las voces HD de Azure AI Speech:

Características clave	Descripción
Generación de voz similar a la humana	Las voces HD neuronales de texto a voz pueden generar una voz muy natural y parecida a la humana. El modelo se entrena en millones de horas de datos multilingües, lo que le permite interpretar con precisión el texto de entrada y generar voz con la emoción, el ritmo y la cadencia adecuados sin necesidad de ajustes manuales.
Conversacional	Las voces HD neuronales de texto a voz pueden reproducir patrones de voz naturales, incluidas las pausas y los énfasis espontáneos. Cuando se le da un texto conversacional, el modelo puede reproducir fonemas comunes como pausas y palabras de relleno. La voz generada suena como si alguien estuviera conversando directamente con usted.
Variaciones de prosodia	Las voces HD neuronales de texto a voz introducen ligeras variaciones en cada salida para aumentar el realismo. Estas variaciones hacen que la voz suene más natural, ya que las voces humanas presentan variaciones de forma natural.
Alta fidelidad	El objetivo principal de las voces HD neurales de texto a voz es generar audio de alta fidelidad. La voz sintética producida por nuestro sistema puede imitar fielmente el habla humana tanto en calidad como en naturalidad.

Comparación de las voces HD de Azure AI con otras tecnologías de texto a voz de Azure

¿Cómo se comparan las voces HD de Voz de Azure AI con otras voces de texto a voz de Azure? ¿Cómo difieren en términos de características y funcionalidades?

Esta es una comparación de las características entre las voces HD de Azure AI Speech, las voces HD de Azure OpenAI y las voces de Azure AI.

Característica	Voces HD de Voz de Azure AI	Voces HD de Azure OpenAI	Voces de Voz de Azure AI (no HD)
Región	- Este de EE. UU., Sudeste de Asia, Oeste de Europa	Centro-norte de EE. UU., Centro de Suecia	Disponible en docenas de regiones. Consulte la lista de regiones.
Número de voces	30	6	Más de 500
Multilingüe	Sí	Sí	Sí (aplicable solo a voces multilingües)
Compatibilidad con SSML	Compatibilidad con un subconjunto de elementos SSML.	Compatibilidad con un subconjunto de elementos SSML.	Compatibilidad con el conjunto completo de SSML en Voz de Azure AI.
Opciones de desarrollo	SDK de Voz, CLI de Voz, API de REST	SDK de Voz, CLI de Voz, API de REST	SDK de Voz, CLI de Voz, API de REST
Opciones de implementación	Únicamente en la nube	Únicamente en la nube	Nube, insertada, híbrida y contenedores.
Síntesis por lotes o en tiempo real	Solo en tiempo real	Síntesis por lotes y en tiempo real	Síntesis por lotes y en tiempo real
Latencia	Menos de 300 ms	Más de 500 ms	Menos de 300 ms
Frecuencia de muestreo de audio sintetizado	8, 16, 24 y 48 kHz	8, 16, 24 y 48 kHz	8, 16, 24 y 48 kHz
Formato de audio de salida de voz	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk

Voces HD de Voz de Azure AI admitidas

Los valores de voz HD de Voz de Azure AI tienen el formato voicename:basemodel:version. El nombre delante de los dos puntos, como en-US-Ava, es el nombre del rol de voz y su configuración regional original. En las actualizaciones posteriores, se realiza un seguimiento del modelo base mediante las versiones.

Actualmente, DragonHD es el único modelo base disponible para voces HD de Azure AI. Para asegurarse de que usa la versión más reciente del modelo base que proporcionamos sin tener que realizar un cambio de código, use la versión LatestNeural.

Por ejemplo, para el rol en-US-Ava puede especificar los siguientes valores de voz HD:

en-US-Ava:DragonHDLatestNeural: siempre usa la versión más reciente del modelo base que proporcionamos más adelante.

En la tabla siguiente se enumeran las voces HD de Voz de Azure AI que están disponibles actualmente.

Nombre de voz	Género	Estado	Nota:
de-DE-Florian:DragonHDLatestNeural	Masculino	Disponibilidad general
de-DE-Seraphina:DragonHDLatestNeural	Mujer	Disponibilidad general
en-US-Adam:DragonHDLatestNeural	Masculino	Disponibilidad general
en-US-Alloy:DragonHDLatestNeural	Masculino	Versión preliminar
en-US-Andrew:DragonHDLatestNeural	Masculino	Disponibilidad general
en-US-Andrew2:DragonHDLatestNeural	Masculino	Disponibilidad general	Optimizado para contenido conversacional
en-US-Andrew3:DragonHDLatestNeural	Masculino	Versión preliminar	Optimizado para contenido de podcast
en-US-Aria:DragonHDLatestNeural	Mujer	Versión preliminar
en-US-Ava:DragonHDLatestNeural	Mujer	Disponibilidad general
en-US-Ava3:DragonHDLatestNeural	Mujer	Versión preliminar	Optimizado para contenido de podcast
en-US-Brian:DragonHDLatestNeural	Masculino	Disponibilidad general
en-US-Davis:DragonHDLatestNeural	Masculino	Disponibilidad general
en-US-Emma:DragonHDLatestNeural	Mujer	Disponibilidad general
en-US-Emma2:DragonHDLatestNeural	Mujer	Disponibilidad general	Optimizado para contenido conversacional
en-US-Jenny:DragonHDLatestNeural	Mujer	Versión preliminar
en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural	Masculino	Versión preliminar
en-US-Nova:DragonHDLatestNeural	Mujer	Versión preliminar
en-US-Phoebe:DragonHDLatestNeural	Mujer	Versión preliminar
en-US-Serena:DragonHDLatestNeural	Mujer	Versión preliminar
en-US-Steffan:DragonHDLatestNeural	Masculino	Disponibilidad general
es-ES-Tristan:DragonHDLatestNeural	Masculino	Disponibilidad general
es-ES-Ximena:DragonHDLatestNeural	Mujer	Disponibilidad general
fr-FR-Remy:DragonHDLatestNeural	Masculino	Disponibilidad general
fr-FR-Vivienne:DragonHDLatestNeural	Mujer	Disponibilidad general
ja-JP-Masaru:DragonHDLatestNeural	Masculino	Disponibilidad general
ja-JP-Nanami:DragonHDLatestNeural	Mujer	Disponibilidad general
zh-CN-Xiaochen:DragonHDLatestNeural	Mujer	Disponibilidad general
zh-CN-Yunfan:DragonHDLatestNeural	Masculino	Disponibilidad general

Cómo usar las voces HD de Azure AI Speech

Puede usar voces HD con el mismo SDK de voz y las API de REST que las voces que no son HD.

Estos son algunos puntos clave que se deben tener en cuenta al usar voces HD de Azure AI:

Configuración regional de voz: la configuración regional del nombre de voz indica su idioma y región originales.
Modelos base:
- Las voces HD incluyen un modelo base que entiende el texto de entrada y predice el patrón de habla en consecuencia. Puede especificar el modelo deseado (como DragonHDLatestNeural) según la disponibilidad de cada voz.
Uso de SSML: para hacer referencia a una voz en SSML, use el formato voicename:basemodel:version. El nombre delante de los dos puntos, como de-DE-Seraphina, es el nombre del rol de voz y su configuración regional original. En las actualizaciones posteriores, se realiza un seguimiento del modelo base mediante las versiones.
Parámetro de temperatura:
- El valor de temperatura es un valor flotante comprendido entre 0 y 1, lo que influye en la aleatoriedad de la salida. También puede ajustar el parámetro de temperatura para controlar la variación de las salidas. Menos aleatoriedad produce resultados más estables, mientras que la aleatoriedad ofrece variedad pero menos coherencia.
- Una temperatura más baja da como resultado una menor aleatoriedad, lo que conduce a salidas más predecibles. Una temperatura más alta aumenta la aleatoriedad, lo que permite salidas más diversas. La temperatura predeterminada está establecida en 1,0.

Este es un ejemplo de cómo usar voces HD de Voz de Azure AI en SSML:

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>

Etiquetas SSML admitidas y no admitidas para voces HD de Azure Speech AI

El lenguaje de marcado de síntesis de voz (SSML) con texto de entrada determina la estructura, el contenido y otras características de la salida de texto a voz. Por ejemplo, puede usar SSML para definir un párrafo, una oración, una interrupción o pausa, o un silencio. Puede encapsular texto con etiquetas de evento como marcador o visema que la aplicación procesa más adelante.

Las voces HD de Azure AI no admiten todos los elementos o eventos SSML que otras voces de Azure AI sí admiten. Tenga en cuenta que las voces HD de Voz de Azure AI no admiten eventos de límite de palabras.

Para obtener información detallada sobre los elementos SSML admitidos y no admitidos para las voces HD de Voz de Azure AI, consulte la tabla siguiente. Para obtener instrucciones sobre cómo usar elementos SSML, consulte la documentación del lenguaje de marcado de síntesis de voz (SSML).

Elemento SSML	Descripción	Compatible con las voces HD de Voz de Azure AI
`<voice>`	Especifica la voz y los efectos opcionales (`eq_car` y `eq_telecomhp8k`).	Sí
`<mstts:express-as>`	Especifica los estilos de habla y los roles.	No
`<mstts:ttsembedding>`	Especifica la propiedad `speakerProfileId` para una voz personal.	No
`<lang xml:lang>`	Especifica el idioma de habla.	Sí
`<prosody>`	Ajusta el tono, el contorno, el intervalo, la velocidad y el volumen.	No
`<emphasis>`	Agrega o suprime el énfasis a nivel de palabra en el texto.	No
`<audio>`	Inserta audio pregrabado en un documento SSML.	No
`<mstts:audioduration>`	Especifica la duración del audio de salida.	No
`<mstts:backgroundaudio>`	Agrega audio en segundo plano a los documentos SSML o combina un archivo de audio con texto a voz.	No
`<phoneme>`	Especifica la pronunciación fonética en documentos SSML.	No
`<lexicon>`	Define cómo se leen varias entidades en SSML.	Sí (solo admite alias)
`<say-as>`	Indica el tipo de contenido (por ejemplo, un número o una fecha) del texto del elemento.	Sí
`<sub>`	Indica que el valor de texto del atributo del alias debe pronunciarse en lugar del texto incluido del elemento.	Sí
`<math>`	Usa MathML como texto de entrada para pronunciar correctamente notaciones matemáticas en el audio de salida.	No
`<bookmark>`	Obtiene el desplazamiento de cada marcador de la secuencia de audio.	No
`<break>`	Anula el comportamiento predeterminado de saltos o pausas entre palabras.	No
`<mstts:silence>`	Inserta pausa antes o después del texto, o entre dos oraciones adyacentes.	No
`<mstts:viseme>`	Define la posición de la cara y la boca cuando una persona habla.	No
`<p>`	Denota párrafos en documentos SSML.	Sí
`<s>`	Denota oraciones en documentos SSML.	Sí

Nota:

Aunque en una sección anterior de esta guía también se compararon las voces HD de Azure AI Speech con las de Azure OpenAI, los elementos SSML compatibles con Azure AI Speech no son aplicables a las voces de Azure OpenAI.

Compartir a través de

¿Qué son las voces de alta definición?

Características clave de las voces HD neurales de texto a voz

Comparación de las voces HD de Azure AI con otras tecnologías de texto a voz de Azure

Voces HD de Voz de Azure AI admitidas

Cómo usar las voces HD de Azure AI Speech

Etiquetas SSML admitidas y no admitidas para voces HD de Azure Speech AI

Contenido relacionado

Comentarios

Recursos adicionales