Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Azure AI Speech sigue avanzando en el área de la tecnología de texto a voz con la introducción de voces neuronales de alta definición (HD). Las voces HD pueden comprender el contenido, detectar automáticamente las emociones en el texto de entrada y ajustar el tono de habla en tiempo real para que coincida con la opinión. Las voces HD mantienen un rol de voz coherente a partir de sus homólogos neuronales (y no HD), y ofrecen aún más valor mediante características mejoradas.
Características clave de las voces HD neurales de texto a voz
A continuación se muestran las características clave de las voces HD de Azure AI Speech:
Características clave | Descripción |
---|---|
Generación de voz similar a la humana | Las voces HD neuronales de texto a voz pueden generar una voz muy natural y parecida a la humana. El modelo se entrena en millones de horas de datos multilingües, lo que le permite interpretar con precisión el texto de entrada y generar voz con la emoción, el ritmo y la cadencia adecuados sin necesidad de ajustes manuales. |
Conversacional | Las voces HD neuronales de texto a voz pueden reproducir patrones de voz naturales, incluidas las pausas y los énfasis espontáneos. Cuando se le da un texto conversacional, el modelo puede reproducir fonemas comunes como pausas y palabras de relleno. La voz generada suena como si alguien estuviera conversando directamente con usted. |
Variaciones de prosodia | Las voces HD neuronales de texto a voz introducen ligeras variaciones en cada salida para aumentar el realismo. Estas variaciones hacen que la voz suene más natural, ya que las voces humanas presentan variaciones de forma natural. |
Alta fidelidad | El objetivo principal de las voces HD neurales de texto a voz es generar audio de alta fidelidad. La voz sintética producida por nuestro sistema puede imitar fielmente el habla humana tanto en calidad como en naturalidad. |
Comparación de las voces HD de Azure AI con otras tecnologías de texto a voz de Azure
¿Cómo se comparan las voces HD de Voz de Azure AI con otras voces de texto a voz de Azure? ¿Cómo difieren en términos de características y funcionalidades?
Esta es una comparación de las características entre las voces HD de Azure AI Speech, las voces HD de Azure OpenAI y las voces de Azure AI.
Característica | Voces HD de Voz de Azure AI | Voces HD de Azure OpenAI | Voces de Voz de Azure AI (no HD) |
---|---|---|---|
Región | - Este de EE. UU., Sudeste de Asia, Oeste de Europa | Centro-norte de EE. UU., Centro de Suecia | Disponible en docenas de regiones. Consulte la lista de regiones. |
Número de voces | 30 | 6 | Más de 500 |
Multilingüe | Sí | Sí | Sí (aplicable solo a voces multilingües) |
Compatibilidad con SSML | Compatibilidad con un subconjunto de elementos SSML. | Compatibilidad con un subconjunto de elementos SSML. | Compatibilidad con el conjunto completo de SSML en Voz de Azure AI. |
Opciones de desarrollo | SDK de Voz, CLI de Voz, API de REST | SDK de Voz, CLI de Voz, API de REST | SDK de Voz, CLI de Voz, API de REST |
Opciones de implementación | Únicamente en la nube | Únicamente en la nube | Nube, insertada, híbrida y contenedores. |
Síntesis por lotes o en tiempo real | Solo en tiempo real | Síntesis por lotes y en tiempo real | Síntesis por lotes y en tiempo real |
Latencia | Menos de 300 ms | Más de 500 ms | Menos de 300 ms |
Frecuencia de muestreo de audio sintetizado | 8, 16, 24 y 48 kHz | 8, 16, 24 y 48 kHz | 8, 16, 24 y 48 kHz |
Formato de audio de salida de voz | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk |
Voces HD de Voz de Azure AI admitidas
Los valores de voz HD de Voz de Azure AI tienen el formato voicename:basemodel:version
. El nombre delante de los dos puntos, como en-US-Ava
, es el nombre del rol de voz y su configuración regional original. En las actualizaciones posteriores, se realiza un seguimiento del modelo base mediante las versiones.
Actualmente, DragonHD
es el único modelo base disponible para voces HD de Azure AI. Para asegurarse de que usa la versión más reciente del modelo base que proporcionamos sin tener que realizar un cambio de código, use la versión LatestNeural
.
Por ejemplo, para el rol en-US-Ava
puede especificar los siguientes valores de voz HD:
en-US-Ava:DragonHDLatestNeural
: siempre usa la versión más reciente del modelo base que proporcionamos más adelante.
En la tabla siguiente se enumeran las voces HD de Voz de Azure AI que están disponibles actualmente.
Nombre de voz | Género | Estado | Nota: |
---|---|---|---|
de-DE-Florian:DragonHDLatestNeural | Masculino | Disponibilidad general | |
de-DE-Seraphina:DragonHDLatestNeural | Mujer | Disponibilidad general | |
en-US-Adam:DragonHDLatestNeural | Masculino | Disponibilidad general | |
en-US-Alloy:DragonHDLatestNeural | Masculino | Versión preliminar | |
en-US-Andrew:DragonHDLatestNeural | Masculino | Disponibilidad general | |
en-US-Andrew2:DragonHDLatestNeural | Masculino | Disponibilidad general | Optimizado para contenido conversacional |
en-US-Andrew3:DragonHDLatestNeural | Masculino | Versión preliminar | Optimizado para contenido de podcast |
en-US-Aria:DragonHDLatestNeural | Mujer | Versión preliminar | |
en-US-Ava:DragonHDLatestNeural | Mujer | Disponibilidad general | |
en-US-Ava3:DragonHDLatestNeural | Mujer | Versión preliminar | Optimizado para contenido de podcast |
en-US-Brian:DragonHDLatestNeural | Masculino | Disponibilidad general | |
en-US-Davis:DragonHDLatestNeural | Masculino | Disponibilidad general | |
en-US-Emma:DragonHDLatestNeural | Mujer | Disponibilidad general | |
en-US-Emma2:DragonHDLatestNeural | Mujer | Disponibilidad general | Optimizado para contenido conversacional |
en-US-Jenny:DragonHDLatestNeural | Mujer | Versión preliminar | |
en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural | Masculino | Versión preliminar | |
en-US-Nova:DragonHDLatestNeural | Mujer | Versión preliminar | |
en-US-Phoebe:DragonHDLatestNeural | Mujer | Versión preliminar | |
en-US-Serena:DragonHDLatestNeural | Mujer | Versión preliminar | |
en-US-Steffan:DragonHDLatestNeural | Masculino | Disponibilidad general | |
es-ES-Tristan:DragonHDLatestNeural | Masculino | Disponibilidad general | |
es-ES-Ximena:DragonHDLatestNeural | Mujer | Disponibilidad general | |
fr-FR-Remy:DragonHDLatestNeural | Masculino | Disponibilidad general | |
fr-FR-Vivienne:DragonHDLatestNeural | Mujer | Disponibilidad general | |
ja-JP-Masaru:DragonHDLatestNeural | Masculino | Disponibilidad general | |
ja-JP-Nanami:DragonHDLatestNeural | Mujer | Disponibilidad general | |
zh-CN-Xiaochen:DragonHDLatestNeural | Mujer | Disponibilidad general | |
zh-CN-Yunfan:DragonHDLatestNeural | Masculino | Disponibilidad general |
Cómo usar las voces HD de Azure AI Speech
Puede usar voces HD con el mismo SDK de voz y las API de REST que las voces que no son HD.
Estos son algunos puntos clave que se deben tener en cuenta al usar voces HD de Azure AI:
- Configuración regional de voz: la configuración regional del nombre de voz indica su idioma y región originales.
- Modelos base:
- Las voces HD incluyen un modelo base que entiende el texto de entrada y predice el patrón de habla en consecuencia. Puede especificar el modelo deseado (como DragonHDLatestNeural) según la disponibilidad de cada voz.
- Uso de SSML: para hacer referencia a una voz en SSML, use el formato
voicename:basemodel:version
. El nombre delante de los dos puntos, comode-DE-Seraphina
, es el nombre del rol de voz y su configuración regional original. En las actualizaciones posteriores, se realiza un seguimiento del modelo base mediante las versiones. - Parámetro de temperatura:
- El valor de temperatura es un valor flotante comprendido entre 0 y 1, lo que influye en la aleatoriedad de la salida. También puede ajustar el parámetro de temperatura para controlar la variación de las salidas. Menos aleatoriedad produce resultados más estables, mientras que la aleatoriedad ofrece variedad pero menos coherencia.
- Una temperatura más baja da como resultado una menor aleatoriedad, lo que conduce a salidas más predecibles. Una temperatura más alta aumenta la aleatoriedad, lo que permite salidas más diversas. La temperatura predeterminada está establecida en 1,0.
Este es un ejemplo de cómo usar voces HD de Voz de Azure AI en SSML:
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>
Etiquetas SSML admitidas y no admitidas para voces HD de Azure Speech AI
El lenguaje de marcado de síntesis de voz (SSML) con texto de entrada determina la estructura, el contenido y otras características de la salida de texto a voz. Por ejemplo, puede usar SSML para definir un párrafo, una oración, una interrupción o pausa, o un silencio. Puede encapsular texto con etiquetas de evento como marcador o visema que la aplicación procesa más adelante.
Las voces HD de Azure AI no admiten todos los elementos o eventos SSML que otras voces de Azure AI sí admiten. Tenga en cuenta que las voces HD de Voz de Azure AI no admiten eventos de límite de palabras.
Para obtener información detallada sobre los elementos SSML admitidos y no admitidos para las voces HD de Voz de Azure AI, consulte la tabla siguiente. Para obtener instrucciones sobre cómo usar elementos SSML, consulte la documentación del lenguaje de marcado de síntesis de voz (SSML).
Elemento SSML | Descripción | Compatible con las voces HD de Voz de Azure AI |
---|---|---|
<voice> |
Especifica la voz y los efectos opcionales (eq_car y eq_telecomhp8k ). |
Sí |
<mstts:express-as> |
Especifica los estilos de habla y los roles. | No |
<mstts:ttsembedding> |
Especifica la propiedad speakerProfileId para una voz personal. |
No |
<lang xml:lang> |
Especifica el idioma de habla. | Sí |
<prosody> |
Ajusta el tono, el contorno, el intervalo, la velocidad y el volumen. | No |
<emphasis> |
Agrega o suprime el énfasis a nivel de palabra en el texto. | No |
<audio> |
Inserta audio pregrabado en un documento SSML. | No |
<mstts:audioduration> |
Especifica la duración del audio de salida. | No |
<mstts:backgroundaudio> |
Agrega audio en segundo plano a los documentos SSML o combina un archivo de audio con texto a voz. | No |
<phoneme> |
Especifica la pronunciación fonética en documentos SSML. | No |
<lexicon> |
Define cómo se leen varias entidades en SSML. | Sí (solo admite alias) |
<say-as> |
Indica el tipo de contenido (por ejemplo, un número o una fecha) del texto del elemento. | Sí |
<sub> |
Indica que el valor de texto del atributo del alias debe pronunciarse en lugar del texto incluido del elemento. | Sí |
<math> |
Usa MathML como texto de entrada para pronunciar correctamente notaciones matemáticas en el audio de salida. | No |
<bookmark> |
Obtiene el desplazamiento de cada marcador de la secuencia de audio. | No |
<break> |
Anula el comportamiento predeterminado de saltos o pausas entre palabras. | No |
<mstts:silence> |
Inserta pausa antes o después del texto, o entre dos oraciones adyacentes. | No |
<mstts:viseme> |
Define la posición de la cara y la boca cuando una persona habla. | No |
<p> |
Denota párrafos en documentos SSML. | Sí |
<s> |
Denota oraciones en documentos SSML. | Sí |
Nota:
Aunque en una sección anterior de esta guía también se compararon las voces HD de Azure AI Speech con las de Azure OpenAI, los elementos SSML compatibles con Azure AI Speech no son aplicables a las voces de Azure OpenAI.