Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Azure Speech in Foundry Tools sigue avanzando la tecnología de texto a voz con voces neuronales de alta definición (HD). Nuestras voces hd comprenden el contenido, detectan automáticamente emociones en texto de entrada y ajustan el tono de habla en tiempo real para que coincida con la opinión. Mantienen personalidades de voz coherentes mientras ofrecen una expresividad mejorada, naturalidad y control.
Información general sobre voz HD
Azure Speech ofrece dos modelos avanzados de voz hd, cada uno optimizado para diferentes casos de uso:
| Modelo | Recuento de voz | Características clave | Mejor para |
|---|---|---|---|
| DragonHD | Más de 30 voces optimizadas | Calidad profesional, pronunciación precisa, compatibilidad con múltiples hablantes | Aplicaciones empresariales que requieren una salida de alta calidad |
| DragonHDOmni | Más de 700 voces (todas las voces publicadas + nuevas generadas por ia) | Es compatible con estilos, multilingüe, y flexible para agregar nuevas voces y estilos. | Diversas aplicaciones, creación de contenido, amplia variedad de personajes |
Características clave de las voces de HD
A continuación se muestran las características clave de las voces de Azure Speech HD:
| Características clave | Descripción |
|---|---|
| Generación de voz similar a la humana | Las voces HD neuronales de texto a voz pueden generar una voz muy natural y parecida a la humana. El modelo se entrena en millones de horas de datos multilingües, lo que le permite interpretar con precisión el texto de entrada y generar voz con la emoción, el ritmo y la cadencia adecuados sin necesidad de ajustes manuales. |
| Conversacional | Las voces HD neuronales de texto a voz pueden reproducir patrones de voz naturales, incluidas las pausas y los énfasis espontáneos. Cuando se le da un texto conversacional, el modelo puede reproducir fonemas comunes como pausas y palabras de relleno. La voz generada suena como si alguien estuviera conversando directamente con usted. |
| Variaciones de prosodia | Las voces HD neuronales de texto a voz introducen ligeras variaciones en cada salida para aumentar el realismo. Estas variaciones hacen que la voz suene más natural, ya que las voces humanas presentan variaciones de forma natural. |
| Alta fidelidad | El objetivo principal de las voces HD neurales de texto a voz es generar audio de alta fidelidad. La voz sintética producida por nuestro sistema puede imitar fielmente el habla humana tanto en calidad como en naturalidad. |
Comparación de las voces de Azure Speech HD con otras voces de texto a voz de Azure
¿Cómo se comparan las voces HD de Azure Speech con otras voces de texto a voz de Azure? Esta es una comparación detallada:
| Característica | Voces de Azure Speech HD | Voces HD de Azure OpenAI | Voces de Voz de Azure (no HD) |
|---|---|---|---|
| Región | Consulte Regiones del servicio de voz. | Consulte Regiones del servicio de voz. | Disponible en docenas de regiones. Consulte las regiones del servicio de voz. |
| Número de voces | 30 | 6 | Más de 500 |
| Multilingüe | Sí | Sí | Sí (aplicable solo a voces multilingües) |
| Compatibilidad con SSML | Compatibilidad con un subconjunto de elementos SSML. | Compatibilidad con un subconjunto de elementos SSML. | Compatibilidad con el conjunto completo de SSML en Azure Speech. |
| Opciones de desarrollo | SDK de Voz, CLI de Voz, API de REST | SDK de Voz, CLI de Voz, API de REST | SDK de Voz, CLI de Voz, API de REST |
| Opciones de implementación | Únicamente en la nube | Únicamente en la nube | Nube, insertada, híbrida y contenedores. |
| Síntesis por lotes o en tiempo real | Solo en tiempo real | Síntesis por lotes y en tiempo real | Síntesis por lotes y en tiempo real |
| Latencia | Menos de 300 ms | Más de 500 ms | Menos de 300 ms |
| Frecuencia de muestreo de audio sintetizado | 8, 16, 24 y 48 kHz | 8, 16, 24 y 48 kHz | 8, 16, 24 y 48 kHz |
| Formato de audio de salida de voz | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk |
Voces admitidas de Azure Speech HD
Azure Speech proporciona dos conjuntos de voces hd con diferentes arquitecturas de modelo:
Voces de Dragon HD
Los valores de voz de Azure Speech HD tienen el formato voicename:DragonHD:version. El nombre delante de los dos puntos, como en-US-Ava, es el nombre del rol de voz y su configuración regional original.
Para asegurarse de que usa la versión más reciente del modelo base que proporcionamos, use la LatestNeural versión .
Por ejemplo, para la persona en-US-Ava se puede especificar:
-
en-US-Ava:DragonHDLatestNeural: siempre usa la versión más reciente del modelo base DragonHD.
En la tabla siguiente se enumeran las voces de DragonHD disponibles:
| Nombre de voz | Género | Estado | Nota: |
|---|---|---|---|
| de-DE-Florian:DragonHDLatestNeural | Masculino | Disponibilidad general | |
| de-DE-Seraphina:DragonHDLatestNeural | Mujer | Disponibilidad general | |
| en-US-Adam:DragonHDLatestNeural | Masculino | Disponibilidad general | |
| en-US-Alloy:DragonHDLatestNeural | Masculino | Versión preliminar | |
| en-US-Andrew:DragonHDLatestNeural | Masculino | Disponibilidad general | |
| en-US-Andrew2:DragonHDLatestNeural | Masculino | Disponibilidad general | Optimizado para contenido conversacional |
| en-US-Andrew3:DragonHDLatestNeural | Masculino | Versión preliminar | Optimizado para contenido de podcast |
| en-US-Aria:DragonHDLatestNeural | Mujer | Versión preliminar | |
| en-US-Ava:DragonHDLatestNeural | Mujer | Disponibilidad general | |
| en-US-Ava3:DragonHDLatestNeural | Mujer | Versión preliminar | Optimizado para contenido de podcast |
| en-US-Brian:DragonHDLatestNeural | Masculino | Disponibilidad general | |
| en-US-Davis:DragonHDLatestNeural | Masculino | Disponibilidad general | |
| en-US-Emma:DragonHDLatestNeural | Mujer | Disponibilidad general | |
| en-US-Emma2:DragonHDLatestNeural | Mujer | Disponibilidad general | Optimizado para contenido conversacional |
| en-US-Jenny:DragonHDLatestNeural | Mujer | Versión preliminar | |
| en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural | Masculino | Versión preliminar | |
| en-US-Nova:DragonHDLatestNeural | Mujer | Versión preliminar | |
| en-US-Phoebe:DragonHDLatestNeural | Mujer | Versión preliminar | |
| en-US-Serena:DragonHDLatestNeural | Mujer | Versión preliminar | |
| en-US-Steffan:DragonHDLatestNeural | Masculino | Disponibilidad general | |
| es-ES-Tristan:DragonHDLatestNeural | Masculino | Disponibilidad general | |
| es-ES-Ximena:DragonHDLatestNeural | Mujer | Disponibilidad general | |
| fr-FR-Remy:DragonHDLatestNeural | Masculino | Disponibilidad general | |
| fr-FR-Vivienne:DragonHDLatestNeural | Mujer | Disponibilidad general | |
| ja-JP-Masaru:DragonHDLatestNeural | Masculino | Disponibilidad general | |
| ja-JP-Nanami:DragonHDLatestNeural | Mujer | Disponibilidad general | |
| zh-CN-Xiaochen:DragonHDLatestNeural | Mujer | Disponibilidad general | |
| zh-CN-Yunfan:DragonHDLatestNeural | Masculino | Disponibilidad general |
Voces de Dragon HD Omni
Dragon HD Omni es el modelo unificado de próxima generación de Azure Speech que combina voces creadas previamente y generadas por IA en una única plataforma flexible. Cuenta con más de 700 voces con expresividad mejorada, compatibilidad multilingüe, control de estilo avanzado y predicción automática de estilo.
Funcionalidades clave de Dragon HD Omni
- Más de 700 voces: incluye la mayoría de las voces anteriores con una calidad mejorada y más de 300 voces generadas por IA con diversas características
-
Control de estilo avanzado: predicción automática de estilo mediante descripciones de lenguaje natural (disponibles inicialmente para
en-US-Avayen-US-Andrew) -
Compatibilidad multilingüe: todas las voces de Dragon HD Omni admiten varios idiomas con detección automática de idioma y compatibilidad con etiquetas SSML
<lang> - Prosodia mejorada: naturalidad mejorada con adaptación contextual automática
- Compatibilidad con eventos de límites de palabras: habilita una sincronización precisa a nivel palabra para las aplicaciones sincronizadas
Estilos admitidos para Dragon HD Omni
Dragon HD Omni admite un conjunto completo de más de 100 estilos de habla. Use el style atributo dentro de <mstts:express-as> para aplicar cualquiera de estos estilos:
angry, chill surfer, confused, curious, determined, disgusted, embarrassed, emo teenager, empathetic, encouraging, excited, fearful, friendly, grateful, joyful, mad scientist, meditative, narration, neutral, new yorker, news, reflective, regretful, relieved, sad, santa, shy, soft voice, surprised
Nota:
Los estilos están disponibles en en-US-Ava y en-US-Andrew para esta versión. Los resultados del estilo son muy relevantes para el contenido de entrada: el modelo adapta la aplicación de estilo en función del significado semántico del texto.
Convención de nombres de voz de Dragon HD Omni
Las voces de Dragon HD Omni siguen el patrón de nomenclatura: languagelocale-voicename:DragonHDOmniLatestNeural. Puede usar este formato de nombre de voz agregando el sufijo :DragonHDOmniLatestNeural para buscar rápidamente la versión omni:
Ejemplo:
| Voz neuronal previa | Nombre de la voz de la versión Omni |
|---|---|
| de-DE-ConradNeural | de-DE-Conrad:DragonHDOmniLatestNeural |
Uso de voces de Azure Speech HD
Puede usar voces HD con el mismo SDK de voz y las API de REST que las voces que no son HD.
Estos son algunos puntos clave que se deben tener en cuenta al usar voces de Azure Speech HD:
- Configuración regional de voz: la configuración regional del nombre de voz indica su idioma y región originales.
-
Modelos base:
- Las voces HD incluyen un modelo base que entiende el texto de entrada y predice el patrón de habla en consecuencia. Puede especificar el modelo deseado (como DragonHDLatestNeural) según la disponibilidad de cada voz.
-
Uso de SSML: para hacer referencia a una voz en SSML, use el formato
voicename:basemodel:version. El nombre delante de los dos puntos, comode-DE-Seraphina, es el nombre del rol de voz y su configuración regional original. En las actualizaciones posteriores, se realiza un seguimiento del modelo base mediante las versiones. -
Parámetro de temperatura:
- El valor de temperatura es un valor flotante comprendido entre 0 y 1, lo que influye en la aleatoriedad de la salida. También puede ajustar el parámetro de temperatura para controlar la variación de las salidas. Menos aleatoriedad produce resultados más estables, mientras que la aleatoriedad ofrece variedad pero menos coherencia.
- Una temperatura más baja da como resultado una menor aleatoriedad, lo que conduce a salidas más predecibles. Una temperatura más alta aumenta la aleatoriedad, lo que permite salidas más diversas. La temperatura predeterminada está establecida en 1,0.
Este es un ejemplo de cómo usar voces de Azure Speech HD en SSML:
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>
Características avanzadas de Dragon HD Omni
Control de estilo con Express-As
Dragon HD Omni admite el control de estilo avanzado mediante el mstts:express-as elemento con descripciones de lenguaje natural. Este es un ejemplo:
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-us-ava:DragonHDOmniLatestNeural">
<mstts:express-as style="sick">
Ugh… I'm not feeling so great today. My head's pounding, and even my voice sounds like it's been through a blender. I think I need to lie down for a bit… maybe some soup would help.
</mstts:express-as>
</voice>
</speak>
Compatibilidad con varios idiomas
Todas las voces de Dragon HD Omni admiten varios idiomas con detección automática de idioma. También puede usar la <lang xml:lang> etiqueta para especificar explícitamente el idioma de habla y el énfasis:
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-us-ava:DragonHDOmniLatestNeural">
<lang xml:lang="fr-FR">
Bonjour ! Ce matin, j'ai pris un café au jardin du Luxembourg. Il faisait frais, mais très agréable. Ensuite, j'ai acheté une baguette et quelques macarons. Paris est vraiment charmant.
</lang>
</voice>
</speak>
Eventos de límite de palabras
Dragon HD Omni admite eventos de límite de palabras, lo que permite un tiempo preciso de nivel de palabra para aplicaciones sincronizadas, como karaoke, subtítulos en tiempo real y experiencias de voz interactivas.
Cuando se desencadena un evento de límite de palabras, proporciona:
- Texto: palabra hablada
- AudioOffset: desplazamiento de tiempo en la secuencia de audio (milisegundos)
- TextOffset: posición de la palabra en el texto de entrada
Ejemplo de Python con eventos de límite de palabras
import azure.cognitiveservices.speech as speechsdk
def word_boundary_cb(evt):
print(f"Word: '{evt.text}', AudioOffset: {evt.audio_offset / 10000}ms, TextOffset: {evt.text_offset}")
speech_config = speechsdk.SpeechConfig(subscription="YourSubscriptionKey", region="YourServiceRegion")
synthesizer = speechsdk.SpeechSynthesizer(speech_config=speech_config)
synthesizer.synthesis_word_boundary.connect(word_boundary_cb)
ssml = """
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis'
xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-us-ava:DragonHDOmniLatestNeural'>
Hello Azure, welcome to Dragon HD Omni!
</voice>
</speak>
"""
result = synthesizer.speak_ssml_async(ssml).get()
Resultados del ejemplo:
Word: 'Hello', AudioOffset: 110.0ms, TextOffset: 182
Word: 'Azure', AudioOffset: 590.0ms, TextOffset: 188
Word: ',', AudioOffset: 1110.0ms, TextOffset: 193
Word: 'welcome', AudioOffset: 1270.0ms, TextOffset: 195
Word: 'to', AudioOffset: 1750.0ms, TextOffset: 203
Word: 'Dragon HD Omni', AudioOffset: 1910.0ms, TextOffset: 206
Word: '!', AudioOffset: 2750.0ms, TextOffset: 216
Optimización avanzada de parámetros para Dragon HD Omni
Dragon HD Omni admite el ajuste avanzado de parámetros para personalizar la salida de voz en diferentes escenarios.
Referencia de los parámetros
| Parámetro | Predeterminado | Intervalo | Propósito |
|---|---|---|---|
temperature |
0.7 | 0.3–1.0 | Controla la creatividad frente a la estabilidad |
top_p |
0.7 | 0.3–1.0 | Filtra la salida para lograr diversidad |
top_k |
22 | 1–50 | Límites de número de opciones consideradas |
cfg_scale |
1.4 | 1.0–2.0 | Ajusta la relevancia y la velocidad de voz. |
Estrategias de optimización
Para expresividad frente a estabilidad:
- Los valores más altos para
temperature,top_pytop_kdan lugar a una voz más expresiva y emocionalmente variada - Los valores inferiores producen una salida más estable y predecible
- Recomendación: Mantener
top_pigual atemperaturepara obtener los mejores resultados
Para velocidad y relevancia contextual:
-
cfg_scaleafecta a la rapidez con la que la voz habla y lo bien que se alinea con el contexto- Valores más altos (1,8–2.0): voz más rápida con mayor relevancia contextual
- Valores inferiores (1.0–1.2): voz más lenta con menos alineación contextual
Tabla de optimización sugerida
| Objetivo | Ajuste sugerido |
|---|---|
| Más expresivo | Aumentar temperature, top_p, y top_k juntos |
| Más estable | Primero, baje temperature, luego ajuste top_p si es necesario. |
| Más rápido y relevante | Aumentar cfg_scale |
| Más lento y neutro | Disminuir cfg_scale |
Ejemplos de uso de parámetros
Ajuste de parámetro único:
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-us-ava:DragonHDOmniLatestNeural" parameters="top_p=0.8">
Hello Azure!
</voice>
</speak>
Ajuste de varios parámetros:
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-us-ava:DragonHDOmniLatestNeural" parameters="top_p=0.8;top_k=22;temperature=0.7;cfg_scale=1.2">
Hello Azure! Welcome to Dragon HD Omni!
</voice>
</speak>
Elementos SSML admitidos y no admitidos para voces de Azure Speech HD
El lenguaje de marcado de síntesis de voz (SSML) con texto de entrada determina la estructura, el contenido y otras características de la salida de texto a voz. Por ejemplo, puede usar SSML para definir un párrafo, una oración, una interrupción o pausa, o un silencio. Puede encapsular texto con etiquetas de evento como marcador o visema que la aplicación procesa más adelante.
Las voces de Azure Speech HD admiten diferentes elementos SSML en función del modelo:
- Voces de DragonHD: compatibilidad con un subconjunto de elementos SSML (consulte la tabla siguiente)
-
Voces de Dragon HD Omni: admite elementos adicionales, incluidos
mstts:express-aspara eventos de límite de palabras y control de estilo
Para obtener información detallada sobre los elementos SSML admitidos y no admitidos para las voces de Azure Speech HD, consulte la tabla siguiente. Para obtener instrucciones sobre cómo usar elementos SSML, consulte la documentación del lenguaje de marcado de síntesis de voz (SSML).
| Elemento SSML | Descripción | DragonHD | Dragon HD Omni |
|---|---|---|---|
<voice> |
Especifica la voz y los efectos opcionales (eq_car y eq_telecomhp8k). |
Sí | Sí |
<mstts:express-as> |
Especifica los estilos de habla y los roles. | No | Sí |
<mstts:ttsembedding> |
Especifica la propiedad speakerProfileId para una voz personal. |
No | No |
<lang xml:lang> |
Especifica el idioma de habla. | Sí | Sí |
<prosody> |
Ajusta el tono, el contorno, el intervalo, la velocidad y el volumen. | No | No |
<emphasis> |
Agrega o suprime el énfasis a nivel de palabra en el texto. | No | No |
<audio> |
Inserta audio pregrabado en un documento SSML. | No | No |
<mstts:audioduration> |
Especifica la duración del audio de salida. | No | No |
<mstts:backgroundaudio> |
Agrega audio en segundo plano a los documentos SSML o combina un archivo de audio con texto a voz. | No | No |
<phoneme> |
Especifica la pronunciación fonética en documentos SSML. | No | No |
<lexicon> |
Define cómo se leen varias entidades en SSML. | Sí (solo admite alias) | Sí (solo admite alias) |
<say-as> |
Indica el tipo de contenido (por ejemplo, un número o una fecha) del texto del elemento. | Sí | Sí |
<sub> |
Indica que el valor de texto del atributo del alias debe pronunciarse en lugar del texto incluido del elemento. | Sí | Sí |
<math> |
Usa MathML como texto de entrada para pronunciar correctamente notaciones matemáticas en el audio de salida. | No | No |
<bookmark> |
Obtiene el desplazamiento de cada marcador de la secuencia de audio. | No | No |
<break> |
Anula el comportamiento predeterminado de saltos o pausas entre palabras. | No | No |
<mstts:silence> |
Inserta pausa antes o después del texto, o entre dos oraciones adyacentes. | No | No |
<mstts:viseme> |
Define la posición de la cara y la boca cuando una persona habla. | No | No |
<p> |
Denota párrafos en documentos SSML. | Sí | Sí |
<s> |
Denota oraciones en documentos SSML. | Sí | Sí |
Nota:
Aunque en una sección anterior de esta guía también se comparan las voces de Azure Speech HD con las voces de Azure OpenAI HD, los elementos SSML admitidos por Azure Speech no son aplicables a las voces de Azure OpenAI.
Voces de Flash en alta definición
Las voces flash hd son variantes optimizadas de las voces DragonHD seleccionadas, que actualmente admiten texto chino (zh-CN) e inglés (en-US). Estas voces ofrecen una naturalidad mejorada y están disponibles en regiones estándar de Azure (eastus, westeurope, southeastasia) así como en regiones de China (chinaeast2, chinanorth2, chinanorth3).
A continuación se muestra la lista completa de voces de HD Flash disponibles:
| Nombre de voz | Género |
|---|---|
| zh-CN-Xiaochen:DragonHDFlashLatestNeural | Mujer |
| zh-CN-Xiaoxiao:DragonHDFlashLatestNeural | Mujer |
| zh-CN-Xiaoxiao2:DragonHDFlashLatestNeural | Mujer |
| zh-CN-Yunxia:DragonHDFlashLatestNeural | Masculino |
| zh-CN-Yunxiao:DragonHDFlashLatestNeural | Masculino |
| zh-CN-Yunye:DragonHDFlashLatestNeural | Masculino |
| zh-CN-Yunyi:DragonHDFlashLatestNeural | Masculino |
Nota:
HD Flash solo admite texto en zh-CN y en-US.
Elección entre DragonHD y Dragon HD Omni
Ambos modelos de voz HD ofrecen síntesis de alta calidad, pero sirven para diferentes casos de uso:
| Consideración | DragonHD | Dragon HD Omni |
|---|---|---|
| Número de voces | Más de 30 voces afinadas | Más de 700 voces (incluidas las voces anteriores y las nuevas voces generadas por ia) |
| Diversidad de voz | Limitado a personas predefinidas | Amplia variedad con diversas características de todas las voces de biblioteca |
| Style Control | Parámetros de temperatura y avanzados solamente | Predicción automática de estilo y control de más de 100 estilos en Ava y Andrew |
| Casos de uso | Servicio al cliente, accesibilidad, aplicaciones centradas en la coherencia | Creación de contenido, audiolibros, podcasts, requisitos de distintas personalidades |
Cuándo usar cada modelo
Elija DragonHD si:
- Necesita una persona de voz específica para cada idioma para garantizar la alta calidad.
- Creación de aplicaciones de servicio al cliente empresariales
- Quieres tener un control preciso mediante la temperatura y los parámetros avanzados.
Elija Dragon HD Omni si:
- Necesita flexibilidad con muchas opciones de voz
- Están creando contenido diverso (audiobooks, podcasts, narración)
- Quiere mejorar a partir de las voces neuronales actuales, pero las configuraciones regionales aún no admiten ningún modelo HD.
- Necesita una amplia variedad de personas para diferentes casos de uso