Al igual que las voces de Voz de Azure AI, las voces de texto a voz de OpenAI ofrecen una síntesis de voz de alta calidad para convertir texto escrito en audio hablado de sonido natural. Esto desbloquea una amplia gama de posibilidades para experiencias de usuario envolventes e interactivas.
Las voces de texto a voz de OpenAI están disponibles a través de dos variantes del modelo: Neural y NeuralHD.
Neural: optimizado para casos de uso en tiempo real con la latencia más baja, pero menor calidad que NeuralHD.
NeuralHD: optimizado para la calidad.
Voces de texto a voz disponibles en los servicios de Azure AI
Puede preguntarse: Si quiero usar las voces de texto a voz de OpenAI, ¿debo usarlas con Azure OpenAI Service o Voz de Azure AI? ¿Cuáles son los escenarios que me guían para usar uno u otro?
Cada modelo de voz ofrece características y funcionalidades distintas, lo que le permite elegir la que mejor se adapte a sus necesidades específicas. Quiere comprender las opciones y diferencias entre las voces de texto a voz disponibles en los servicios de Azure AI.
Puede elegir entre las voces de texto a voz en los Servicios de Azure AI:
Voces de texto a voz de OpenAI en Azure OpenAI Service. Disponible en las siguientes regiones: Centro-norte de EE. UU. y Centro de Suecia.
Voces de texto a voz de OpenAI en Voz de Azure AI. Disponible en las siguientes regiones: Centro-norte de EE. UU. y Centro de Suecia.
¿Voces de texto a voz de OpenAI mediante Azure OpenAI Service o Voz de Azure AI?
Si desea usar las voces de texto a voz de OpenAI, puede elegir si quiere usarlas con Azure OpenAI o Voz de Azure AI. Puede visitar Voice Gallery para escuchar ejemplos de voces de Azure OpenAI, o bien sintetizar voz con un texto propio mediante Creación de contenido de audio. La salida de audio es idéntica en ambos casos, con solo algunas diferencias de características entre los dos servicios. Vea la tabla siguiente para más información.
Esta es una comparación de las características entre las voces de texto a voz de OpenAI en Azure OpenAI Service y las voces de texto a voz de OpenAI en Voz de Azure AI.
Las voces de OpenAI disponibles en Azure OpenAI Service son:
alloy
echo
fable
onyx
nova
shimmer
Las voces de OpenAI disponibles en Voz de Azure AI son:
en-US-AlloyMultilingualNeural
en-US-EchoMultilingualNeural
en-US-FableMultilingualNeural
en-US-OnyxMultilingualNeural
en-US-NovaMultilingualNeural
en-US-ShimmerMultilingualNeural
en-US-AlloyMultilingualNeuralHD
en-US-EchoMultilingualNeuralHD
en-US-FableMultilingualNeuralHD
en-US-OnyxMultilingualNeuralHD
en-US-NovaMultilingualNeuralHD
en-US-ShimmerMultilingualNeuralHD
Elementos SSML compatibles con las voces de texto a voz de OpenAI en Voz de Azure AI
El lenguaje de marcado de síntesis de voz (SSML) con texto de entrada determina la estructura, el contenido y otras características de la salida de texto a voz. Por ejemplo, puede usar SSML para definir un párrafo, una oración, una interrupción o pausa, o un silencio. Puede encapsular texto con etiquetas de eventos como un delimitador o viseme que la aplicación puede procesar más adelante.
En la tabla siguiente se describen los elementos del lenguaje de marcado de síntesis de voz (SSML) admitidos por las voces de texto a voz de OpenAI en Voz de Azure AI. Solo se admite el siguiente subconjunto de etiquetas SSML para las voces de OpenAI. Consulte Estructura y eventos de documentos SSML para obtener más información.
Nombre del elemento SSML
Descripción
<speak>
Incluye todo el contenido que se va a hablar. Es el elemento raíz de un documento SSML.
<voice>
Especifica una voz que se usa para la salida de texto a voz.
<sub>
Indica que el valor de texto del atributo del alias debe pronunciarse en lugar del texto incluido del elemento.
<say-as>
Indica el tipo de contenido (por ejemplo, un número o una fecha) del texto del elemento.
Todos los valores de propiedad interpret-as se admiten para este elemento, excepto interpret-as="name". Por ejemplo, se admite <say-as interpret-as="date" format="dmy">10-12-2016</say-as>, pero no se admite <say-as interpret-as="name">ED</say-as>. Para obtener más información, consulte pronunciación con SSML.
<s>
Denota oraciones.
<lang>
Indica la configuración regional predeterminada para el idioma que desea que hable la voz neuronal.
<break>
Úselo para invalidar el comportamiento predeterminado de saltos o pausas entre palabras.
Únase a la serie de reuniones para crear soluciones de inteligencia artificial escalables basadas en casos de uso reales con compañeros desarrolladores y expertos.
Demostrar conceptos fundamentales de inteligencia artificial relacionados con el desarrollo de software y servicios de Microsoft Azure para crear soluciones de inteligencia artificial.