¿Qué son las voces de texto a voz de OpenAI?

Al igual que las voces de Voz de Azure AI, las voces de texto a voz de OpenAI ofrecen una síntesis de voz de alta calidad para convertir texto escrito en audio hablado de sonido natural. Esto desbloquea una amplia gama de posibilidades para experiencias de usuario envolventes e interactivas.

Las voces de texto a voz de OpenAI están disponibles a través de dos variantes del modelo: Neural y NeuralHD.

  • Neural: optimizado para casos de uso en tiempo real con la latencia más baja, pero menor calidad que NeuralHD.
  • NeuralHD: optimizado para la calidad.

Para obtener una demostración de las voces de OpenAI en Azure OpenAI Studio y Speech Studio, vea este vídeo introductorio.

Voces de texto a voz disponibles en los servicios de Azure AI

Puede preguntarse: Si quiero usar las voces de texto a voz de OpenAI, ¿debo usarlas con Azure OpenAI Service o Voz de Azure AI? ¿Cuáles son los escenarios que me guían para usar uno u otro?

Cada modelo de voz ofrece características y funcionalidades distintas, lo que le permite elegir la que mejor se adapte a sus necesidades específicas. Quiere comprender las opciones y diferencias entre las voces de texto a voz disponibles en los servicios de Azure AI.

Puede elegir entre las voces de texto a voz en los Servicios de Azure AI:

  • Voces de texto a voz de OpenAI en Azure OpenAI Service. Disponible en las siguientes regiones: Centro-norte de EE. UU. y Centro de Suecia.
  • Voces de texto a voz de OpenAI en Voz de Azure AI. Disponible en las siguientes regiones: Centro-norte de EE. UU. y Centro de Suecia.
  • Voces de texto a voz del servicio Voz de Azure AI. Disponible en docenas de regiones. Consulte la lista de regiones.

¿Voces de texto a voz de OpenAI mediante Azure OpenAI Service o Voz de Azure AI?

Si desea usar las voces de texto a voz de OpenAI, puede elegir si quiere usarlas con Azure OpenAI o Voz de Azure AI. En cualquier caso, el resultado de la síntesis de voz es el mismo.

Esta es una comparación de las características entre las voces de texto a voz de OpenAI en Azure OpenAI Service y las voces de texto a voz de OpenAI en Voz de Azure AI.

Característica Azure OpenAI Service (voces de OpenAI) Voz de Azure AI (voces de OpenAI) Voces de Voz de Azure AI
Región Centro-norte de EE. UU., Centro de Suecia Centro-norte de EE. UU., Centro de Suecia Disponible en docenas de regiones. Consulte la lista de regiones.
Variedad de voz 6 6 Más de 400
Número de voces multilingües 6 6 14
Cobertura máxima de idiomas multilingües 57 57 77
Compatibilidad con lenguaje de marcado de síntesis de voz (SSML) No compatible Compatibilidad con un subconjunto de elementos SSML. Compatibilidad con el conjunto completo de SSML en Voz de Azure AI.
Opciones de desarrollo REST API SDK de Voz, CLI de Voz, API de REST SDK de Voz, CLI de Voz, API de REST
Opción de implementación Solo en la nube Solo en la nube Nube, insertada, híbrida y contenedores.
Síntesis por lotes o en tiempo real Tiempo real Síntesis por lotes y en tiempo real Síntesis por lotes y en tiempo real
Latency más de 500 ms más de 500 ms menos de 300 ms
Frecuencia de muestreo de audio sintetizado 24 KHz 8, 16, 24 y 48 kHz 8, 16, 24 y 48 kHz
Formato de audio de salida de voz opus, mp3, aac, flac opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk

Hay características y funcionalidades adicionales disponibles en Voz de Azure AI que no están disponibles con voces de OpenAI. Por ejemplo:

Elementos SSML compatibles con las voces de texto a voz de OpenAI en Voz de Azure AI

El lenguaje de marcado de síntesis de voz (SSML) con texto de entrada determina la estructura, el contenido y otras características de la salida de texto a voz. Por ejemplo, puede usar SSML para definir un párrafo, una oración, una interrupción o pausa, o un silencio. Puede encapsular texto con etiquetas de eventos como un delimitador o viseme que la aplicación puede procesar más adelante.

En la tabla siguiente se describen los elementos del lenguaje de marcado de síntesis de voz (SSML) admitidos por las voces de texto a voz de OpenAI en Voz de Azure AI. Solo se admite el siguiente subconjunto de etiquetas SSML para las voces de OpenAI. Consulte Estructura y eventos de documentos SSML para obtener más información.

Nombre del elemento SSML Descripción
<speak> Incluye todo el contenido que se va a hablar. Es el elemento raíz de un documento SSML.
<voice> Especifica una voz que se usa para la salida de texto a voz.
<sub> Indica que el valor de texto del atributo del alias debe pronunciarse en lugar del texto incluido del elemento.
<say-as> Indica el tipo de contenido (por ejemplo, un número o una fecha) del texto del elemento.

Todos los valores de propiedad interpret-as se admiten para este elemento, excepto interpret-as="name". Por ejemplo, se admite <say-as interpret-as="date" format="dmy">10-12-2016</say-as>, pero no se admite <say-as interpret-as="name">ED</say-as>. Para obtener más información, consulte pronunciación con SSML.
<s> Denota oraciones.
<lang> Indica la configuración regional predeterminada para el idioma que desea que hable la voz neuronal.
<break> Úselo para invalidar el comportamiento predeterminado de saltos o pausas entre palabras.

Pasos siguientes