Compartir a través de


Voces de alta definición en Azure Speech

Azure Speech in Foundry Tools sigue avanzando la tecnología de texto a voz con voces neuronales de alta definición (HD). Nuestras voces hd comprenden el contenido, detectan automáticamente emociones en texto de entrada y ajustan el tono de habla en tiempo real para que coincida con la opinión. Mantienen personalidades de voz coherentes mientras ofrecen una expresividad mejorada, naturalidad y control.

Información general sobre voz HD

Azure Speech ofrece dos modelos avanzados de voz hd, cada uno optimizado para diferentes casos de uso:

Modelo Recuento de voz Características clave Mejor para
DragonHD Más de 30 voces optimizadas Calidad profesional, pronunciación precisa, compatibilidad con múltiples hablantes Aplicaciones empresariales que requieren una salida de alta calidad
DragonHDOmni Más de 700 voces (todas las voces publicadas + nuevas generadas por ia) Es compatible con estilos, multilingüe, y flexible para agregar nuevas voces y estilos. Diversas aplicaciones, creación de contenido, amplia variedad de personajes

Características clave de las voces de HD

A continuación se muestran las características clave de las voces de Azure Speech HD:

Características clave Descripción
Generación de voz similar a la humana Las voces HD neuronales de texto a voz pueden generar una voz muy natural y parecida a la humana. El modelo se entrena en millones de horas de datos multilingües, lo que le permite interpretar con precisión el texto de entrada y generar voz con la emoción, el ritmo y la cadencia adecuados sin necesidad de ajustes manuales.
Conversacional Las voces HD neuronales de texto a voz pueden reproducir patrones de voz naturales, incluidas las pausas y los énfasis espontáneos. Cuando se le da un texto conversacional, el modelo puede reproducir fonemas comunes como pausas y palabras de relleno. La voz generada suena como si alguien estuviera conversando directamente con usted.
Variaciones de prosodia Las voces HD neuronales de texto a voz introducen ligeras variaciones en cada salida para aumentar el realismo. Estas variaciones hacen que la voz suene más natural, ya que las voces humanas presentan variaciones de forma natural.
Alta fidelidad El objetivo principal de las voces HD neurales de texto a voz es generar audio de alta fidelidad. La voz sintética producida por nuestro sistema puede imitar fielmente el habla humana tanto en calidad como en naturalidad.

Comparación de las voces de Azure Speech HD con otras voces de texto a voz de Azure

¿Cómo se comparan las voces HD de Azure Speech con otras voces de texto a voz de Azure? Esta es una comparación detallada:

Característica Voces de Azure Speech HD Voces HD de Azure OpenAI Voces de Voz de Azure (no HD)
Región Consulte Regiones del servicio de voz. Consulte Regiones del servicio de voz. Disponible en docenas de regiones. Consulte las regiones del servicio de voz.
Número de voces 30 6 Más de 500
Multilingüe Sí (aplicable solo a voces multilingües)
Compatibilidad con SSML Compatibilidad con un subconjunto de elementos SSML. Compatibilidad con un subconjunto de elementos SSML. Compatibilidad con el conjunto completo de SSML en Azure Speech.
Opciones de desarrollo SDK de Voz, CLI de Voz, API de REST SDK de Voz, CLI de Voz, API de REST SDK de Voz, CLI de Voz, API de REST
Opciones de implementación Únicamente en la nube Únicamente en la nube Nube, insertada, híbrida y contenedores.
Síntesis por lotes o en tiempo real Solo en tiempo real Síntesis por lotes y en tiempo real Síntesis por lotes y en tiempo real
Latencia Menos de 300 ms Más de 500 ms Menos de 300 ms
Frecuencia de muestreo de audio sintetizado 8, 16, 24 y 48 kHz 8, 16, 24 y 48 kHz 8, 16, 24 y 48 kHz
Formato de audio de salida de voz opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk

Voces admitidas de Azure Speech HD

Azure Speech proporciona dos conjuntos de voces hd con diferentes arquitecturas de modelo:

Voces de Dragon HD

Los valores de voz de Azure Speech HD tienen el formato voicename:DragonHD:version. El nombre delante de los dos puntos, como en-US-Ava, es el nombre del rol de voz y su configuración regional original.

Para asegurarse de que usa la versión más reciente del modelo base que proporcionamos, use la LatestNeural versión .

Por ejemplo, para la persona en-US-Ava se puede especificar:

  • en-US-Ava:DragonHDLatestNeural: siempre usa la versión más reciente del modelo base DragonHD.

En la tabla siguiente se enumeran las voces de DragonHD disponibles:

Nombre de voz Género Estado Nota:
de-DE-Florian:DragonHDLatestNeural Masculino Disponibilidad general
de-DE-Seraphina:DragonHDLatestNeural Mujer Disponibilidad general
en-US-Adam:DragonHDLatestNeural Masculino Disponibilidad general
en-US-Alloy:DragonHDLatestNeural Masculino Versión preliminar
en-US-Andrew:DragonHDLatestNeural Masculino Disponibilidad general
en-US-Andrew2:DragonHDLatestNeural Masculino Disponibilidad general Optimizado para contenido conversacional
en-US-Andrew3:DragonHDLatestNeural Masculino Versión preliminar Optimizado para contenido de podcast
en-US-Aria:DragonHDLatestNeural Mujer Versión preliminar
en-US-Ava:DragonHDLatestNeural Mujer Disponibilidad general
en-US-Ava3:DragonHDLatestNeural Mujer Versión preliminar Optimizado para contenido de podcast
en-US-Brian:DragonHDLatestNeural Masculino Disponibilidad general
en-US-Davis:DragonHDLatestNeural Masculino Disponibilidad general
en-US-Emma:DragonHDLatestNeural Mujer Disponibilidad general
en-US-Emma2:DragonHDLatestNeural Mujer Disponibilidad general Optimizado para contenido conversacional
en-US-Jenny:DragonHDLatestNeural Mujer Versión preliminar
en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural Masculino Versión preliminar
en-US-Nova:DragonHDLatestNeural Mujer Versión preliminar
en-US-Phoebe:DragonHDLatestNeural Mujer Versión preliminar
en-US-Serena:DragonHDLatestNeural Mujer Versión preliminar
en-US-Steffan:DragonHDLatestNeural Masculino Disponibilidad general
es-ES-Tristan:DragonHDLatestNeural Masculino Disponibilidad general
es-ES-Ximena:DragonHDLatestNeural Mujer Disponibilidad general
fr-FR-Remy:DragonHDLatestNeural Masculino Disponibilidad general
fr-FR-Vivienne:DragonHDLatestNeural Mujer Disponibilidad general
ja-JP-Masaru:DragonHDLatestNeural Masculino Disponibilidad general
ja-JP-Nanami:DragonHDLatestNeural Mujer Disponibilidad general
zh-CN-Xiaochen:DragonHDLatestNeural Mujer Disponibilidad general
zh-CN-Yunfan:DragonHDLatestNeural Masculino Disponibilidad general

Voces de Dragon HD Omni

Dragon HD Omni es el modelo unificado de próxima generación de Azure Speech que combina voces creadas previamente y generadas por IA en una única plataforma flexible. Cuenta con más de 700 voces con expresividad mejorada, compatibilidad multilingüe, control de estilo avanzado y predicción automática de estilo.

Funcionalidades clave de Dragon HD Omni

  • Más de 700 voces: incluye la mayoría de las voces anteriores con una calidad mejorada y más de 300 voces generadas por IA con diversas características
  • Control de estilo avanzado: predicción automática de estilo mediante descripciones de lenguaje natural (disponibles inicialmente para en-US-Ava y en-US-Andrew)
  • Compatibilidad multilingüe: todas las voces de Dragon HD Omni admiten varios idiomas con detección automática de idioma y compatibilidad con etiquetas SSML <lang>
  • Prosodia mejorada: naturalidad mejorada con adaptación contextual automática
  • Compatibilidad con eventos de límites de palabras: habilita una sincronización precisa a nivel palabra para las aplicaciones sincronizadas

Estilos admitidos para Dragon HD Omni

Dragon HD Omni admite un conjunto completo de más de 100 estilos de habla. Use el style atributo dentro de <mstts:express-as> para aplicar cualquiera de estos estilos:

angry, chill surfer, confused, curious, determined, disgusted, embarrassed, emo teenager, empathetic, encouraging, excited, fearful, friendly, grateful, joyful, mad scientist, meditative, narration, neutral, new yorker, news, reflective, regretful, relieved, sad, santa, shy, soft voice, surprised

Nota:

Los estilos están disponibles en en-US-Ava y en-US-Andrew para esta versión. Los resultados del estilo son muy relevantes para el contenido de entrada: el modelo adapta la aplicación de estilo en función del significado semántico del texto.

Convención de nombres de voz de Dragon HD Omni

Las voces de Dragon HD Omni siguen el patrón de nomenclatura: languagelocale-voicename:DragonHDOmniLatestNeural. Puede usar este formato de nombre de voz agregando el sufijo :DragonHDOmniLatestNeural para buscar rápidamente la versión omni:

Ejemplo:

Voz neuronal previa Nombre de la voz de la versión Omni
de-DE-ConradNeural de-DE-Conrad:DragonHDOmniLatestNeural

Uso de voces de Azure Speech HD

Puede usar voces HD con el mismo SDK de voz y las API de REST que las voces que no son HD.

Estos son algunos puntos clave que se deben tener en cuenta al usar voces de Azure Speech HD:

  • Configuración regional de voz: la configuración regional del nombre de voz indica su idioma y región originales.
  • Modelos base:
    • Las voces HD incluyen un modelo base que entiende el texto de entrada y predice el patrón de habla en consecuencia. Puede especificar el modelo deseado (como DragonHDLatestNeural) según la disponibilidad de cada voz.
  • Uso de SSML: para hacer referencia a una voz en SSML, use el formato voicename:basemodel:version. El nombre delante de los dos puntos, como de-DE-Seraphina, es el nombre del rol de voz y su configuración regional original. En las actualizaciones posteriores, se realiza un seguimiento del modelo base mediante las versiones.
  • Parámetro de temperatura:
    • El valor de temperatura es un valor flotante comprendido entre 0 y 1, lo que influye en la aleatoriedad de la salida. También puede ajustar el parámetro de temperatura para controlar la variación de las salidas. Menos aleatoriedad produce resultados más estables, mientras que la aleatoriedad ofrece variedad pero menos coherencia.
    • Una temperatura más baja da como resultado una menor aleatoriedad, lo que conduce a salidas más predecibles. Una temperatura más alta aumenta la aleatoriedad, lo que permite salidas más diversas. La temperatura predeterminada está establecida en 1,0.

Este es un ejemplo de cómo usar voces de Azure Speech HD en SSML:

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>

Características avanzadas de Dragon HD Omni

Control de estilo con Express-As

Dragon HD Omni admite el control de estilo avanzado mediante el mstts:express-as elemento con descripciones de lenguaje natural. Este es un ejemplo:

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
       xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
  <voice name="en-us-ava:DragonHDOmniLatestNeural">
    <mstts:express-as style="sick">
      Ugh… I'm not feeling so great today. My head's pounding, and even my voice sounds like it's been through a blender. I think I need to lie down for a bit… maybe some soup would help.
    </mstts:express-as>
  </voice>
</speak>

Compatibilidad con varios idiomas

Todas las voces de Dragon HD Omni admiten varios idiomas con detección automática de idioma. También puede usar la <lang xml:lang> etiqueta para especificar explícitamente el idioma de habla y el énfasis:

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" 
        xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
  <voice name="en-us-ava:DragonHDOmniLatestNeural">
    <lang xml:lang="fr-FR">
      Bonjour ! Ce matin, j'ai pris un café au jardin du Luxembourg. Il faisait frais, mais très agréable. Ensuite, j'ai acheté une baguette et quelques macarons. Paris est vraiment charmant.
    </lang>
  </voice>
</speak>

Eventos de límite de palabras

Dragon HD Omni admite eventos de límite de palabras, lo que permite un tiempo preciso de nivel de palabra para aplicaciones sincronizadas, como karaoke, subtítulos en tiempo real y experiencias de voz interactivas.

Cuando se desencadena un evento de límite de palabras, proporciona:

  • Texto: palabra hablada
  • AudioOffset: desplazamiento de tiempo en la secuencia de audio (milisegundos)
  • TextOffset: posición de la palabra en el texto de entrada

Ejemplo de Python con eventos de límite de palabras

import azure.cognitiveservices.speech as speechsdk

def word_boundary_cb(evt):
    print(f"Word: '{evt.text}', AudioOffset: {evt.audio_offset / 10000}ms, TextOffset: {evt.text_offset}")

speech_config = speechsdk.SpeechConfig(subscription="YourSubscriptionKey", region="YourServiceRegion")
synthesizer = speechsdk.SpeechSynthesizer(speech_config=speech_config)

synthesizer.synthesis_word_boundary.connect(word_boundary_cb)

ssml = """
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis'
       xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
  <voice name='en-us-ava:DragonHDOmniLatestNeural'>
    Hello Azure, welcome to Dragon HD Omni!
  </voice>
</speak>
"""

result = synthesizer.speak_ssml_async(ssml).get()

Resultados del ejemplo:

Word: 'Hello', AudioOffset: 110.0ms, TextOffset: 182
Word: 'Azure', AudioOffset: 590.0ms, TextOffset: 188
Word: ',', AudioOffset: 1110.0ms, TextOffset: 193
Word: 'welcome', AudioOffset: 1270.0ms, TextOffset: 195
Word: 'to', AudioOffset: 1750.0ms, TextOffset: 203
Word: 'Dragon HD Omni', AudioOffset: 1910.0ms, TextOffset: 206
Word: '!', AudioOffset: 2750.0ms, TextOffset: 216

Optimización avanzada de parámetros para Dragon HD Omni

Dragon HD Omni admite el ajuste avanzado de parámetros para personalizar la salida de voz en diferentes escenarios.

Referencia de los parámetros

Parámetro Predeterminado Intervalo Propósito
temperature 0.7 0.3–1.0 Controla la creatividad frente a la estabilidad
top_p 0.7 0.3–1.0 Filtra la salida para lograr diversidad
top_k 22 1–50 Límites de número de opciones consideradas
cfg_scale 1.4 1.0–2.0 Ajusta la relevancia y la velocidad de voz.

Estrategias de optimización

Para expresividad frente a estabilidad:

  • Los valores más altos para temperature, top_py top_k dan lugar a una voz más expresiva y emocionalmente variada
  • Los valores inferiores producen una salida más estable y predecible
  • Recomendación: Mantener top_p igual a temperature para obtener los mejores resultados

Para velocidad y relevancia contextual:

  • cfg_scale afecta a la rapidez con la que la voz habla y lo bien que se alinea con el contexto
    • Valores más altos (1,8–2.0): voz más rápida con mayor relevancia contextual
    • Valores inferiores (1.0–1.2): voz más lenta con menos alineación contextual

Tabla de optimización sugerida

Objetivo Ajuste sugerido
Más expresivo Aumentar temperature, top_p, y top_k juntos
Más estable Primero, baje temperature, luego ajuste top_p si es necesario.
Más rápido y relevante Aumentar cfg_scale
Más lento y neutro Disminuir cfg_scale

Ejemplos de uso de parámetros

Ajuste de parámetro único:

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" 
        xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
  <voice name="en-us-ava:DragonHDOmniLatestNeural" parameters="top_p=0.8">
    Hello Azure!
  </voice>
</speak>

Ajuste de varios parámetros:

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" 
        xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
  <voice name="en-us-ava:DragonHDOmniLatestNeural" parameters="top_p=0.8;top_k=22;temperature=0.7;cfg_scale=1.2">
    Hello Azure! Welcome to Dragon HD Omni!
  </voice>
</speak>

Elementos SSML admitidos y no admitidos para voces de Azure Speech HD

El lenguaje de marcado de síntesis de voz (SSML) con texto de entrada determina la estructura, el contenido y otras características de la salida de texto a voz. Por ejemplo, puede usar SSML para definir un párrafo, una oración, una interrupción o pausa, o un silencio. Puede encapsular texto con etiquetas de evento como marcador o visema que la aplicación procesa más adelante.

Las voces de Azure Speech HD admiten diferentes elementos SSML en función del modelo:

  • Voces de DragonHD: compatibilidad con un subconjunto de elementos SSML (consulte la tabla siguiente)
  • Voces de Dragon HD Omni: admite elementos adicionales, incluidos mstts:express-as para eventos de límite de palabras y control de estilo

Para obtener información detallada sobre los elementos SSML admitidos y no admitidos para las voces de Azure Speech HD, consulte la tabla siguiente. Para obtener instrucciones sobre cómo usar elementos SSML, consulte la documentación del lenguaje de marcado de síntesis de voz (SSML).

Elemento SSML Descripción DragonHD Dragon HD Omni
<voice> Especifica la voz y los efectos opcionales (eq_car y eq_telecomhp8k).
<mstts:express-as> Especifica los estilos de habla y los roles. No
<mstts:ttsembedding> Especifica la propiedad speakerProfileId para una voz personal. No No
<lang xml:lang> Especifica el idioma de habla.
<prosody> Ajusta el tono, el contorno, el intervalo, la velocidad y el volumen. No No
<emphasis> Agrega o suprime el énfasis a nivel de palabra en el texto. No No
<audio> Inserta audio pregrabado en un documento SSML. No No
<mstts:audioduration> Especifica la duración del audio de salida. No No
<mstts:backgroundaudio> Agrega audio en segundo plano a los documentos SSML o combina un archivo de audio con texto a voz. No No
<phoneme> Especifica la pronunciación fonética en documentos SSML. No No
<lexicon> Define cómo se leen varias entidades en SSML. Sí (solo admite alias) Sí (solo admite alias)
<say-as> Indica el tipo de contenido (por ejemplo, un número o una fecha) del texto del elemento.
<sub> Indica que el valor de texto del atributo del alias debe pronunciarse en lugar del texto incluido del elemento.
<math> Usa MathML como texto de entrada para pronunciar correctamente notaciones matemáticas en el audio de salida. No No
<bookmark> Obtiene el desplazamiento de cada marcador de la secuencia de audio. No No
<break> Anula el comportamiento predeterminado de saltos o pausas entre palabras. No No
<mstts:silence> Inserta pausa antes o después del texto, o entre dos oraciones adyacentes. No No
<mstts:viseme> Define la posición de la cara y la boca cuando una persona habla. No No
<p> Denota párrafos en documentos SSML.
<s> Denota oraciones en documentos SSML.

Nota:

Aunque en una sección anterior de esta guía también se comparan las voces de Azure Speech HD con las voces de Azure OpenAI HD, los elementos SSML admitidos por Azure Speech no son aplicables a las voces de Azure OpenAI.

Voces de Flash en alta definición

Las voces flash hd son variantes optimizadas de las voces DragonHD seleccionadas, que actualmente admiten texto chino (zh-CN) e inglés (en-US). Estas voces ofrecen una naturalidad mejorada y están disponibles en regiones estándar de Azure (eastus, westeurope, southeastasia) así como en regiones de China (chinaeast2, chinanorth2, chinanorth3).

A continuación se muestra la lista completa de voces de HD Flash disponibles:

Nombre de voz Género
zh-CN-Xiaochen:DragonHDFlashLatestNeural Mujer
zh-CN-Xiaoxiao:DragonHDFlashLatestNeural Mujer
zh-CN-Xiaoxiao2:DragonHDFlashLatestNeural Mujer
zh-CN-Yunxia:DragonHDFlashLatestNeural Masculino
zh-CN-Yunxiao:DragonHDFlashLatestNeural Masculino
zh-CN-Yunye:DragonHDFlashLatestNeural Masculino
zh-CN-Yunyi:DragonHDFlashLatestNeural Masculino

Nota:

HD Flash solo admite texto en zh-CN y en-US.

Elección entre DragonHD y Dragon HD Omni

Ambos modelos de voz HD ofrecen síntesis de alta calidad, pero sirven para diferentes casos de uso:

Consideración DragonHD Dragon HD Omni
Número de voces Más de 30 voces afinadas Más de 700 voces (incluidas las voces anteriores y las nuevas voces generadas por ia)
Diversidad de voz Limitado a personas predefinidas Amplia variedad con diversas características de todas las voces de biblioteca
Style Control Parámetros de temperatura y avanzados solamente Predicción automática de estilo y control de más de 100 estilos en Ava y Andrew
Casos de uso Servicio al cliente, accesibilidad, aplicaciones centradas en la coherencia Creación de contenido, audiolibros, podcasts, requisitos de distintas personalidades

Cuándo usar cada modelo

Elija DragonHD si:

  • Necesita una persona de voz específica para cada idioma para garantizar la alta calidad.
  • Creación de aplicaciones de servicio al cliente empresariales
  • Quieres tener un control preciso mediante la temperatura y los parámetros avanzados.

Elija Dragon HD Omni si:

  • Necesita flexibilidad con muchas opciones de voz
  • Están creando contenido diverso (audiobooks, podcasts, narración)
  • Quiere mejorar a partir de las voces neuronales actuales, pero las configuraciones regionales aún no admiten ningún modelo HD.
  • Necesita una amplia variedad de personas para diferentes casos de uso