¿Qué son las voces de texto a voz de OpenAI?

Artículo
05/07/2024

Al igual que las voces de Voz de Azure AI, las voces de texto a voz de OpenAI ofrecen una síntesis de voz de alta calidad para convertir texto escrito en audio hablado de sonido natural. Esto desbloquea una amplia gama de posibilidades para experiencias de usuario envolventes e interactivas.

Las voces de texto a voz de OpenAI están disponibles a través de dos variantes del modelo: Neural y NeuralHD.

Neural: optimizado para casos de uso en tiempo real con la latencia más baja, pero menor calidad que NeuralHD.
NeuralHD: optimizado para la calidad.

Para obtener una demostración de las voces de OpenAI en Azure OpenAI Studio y Speech Studio, vea este vídeo introductorio.

Voces de texto a voz disponibles en los servicios de Azure AI

Puede preguntarse: Si quiero usar las voces de texto a voz de OpenAI, ¿debo usarlas con Azure OpenAI Service o Voz de Azure AI? ¿Cuáles son los escenarios que me guían para usar uno u otro?

Cada modelo de voz ofrece características y funcionalidades distintas, lo que le permite elegir la que mejor se adapte a sus necesidades específicas. Quiere comprender las opciones y diferencias entre las voces de texto a voz disponibles en los servicios de Azure AI.

Puede elegir entre las voces de texto a voz en los Servicios de Azure AI:

Voces de texto a voz de OpenAI en Azure OpenAI Service. Disponible en las siguientes regiones: Centro-norte de EE. UU. y Centro de Suecia.
Voces de texto a voz de OpenAI en Voz de Azure AI. Disponible en las siguientes regiones: Centro-norte de EE. UU. y Centro de Suecia.
Voces de texto a voz del servicio Voz de Azure AI. Disponible en docenas de regiones. Consulte la lista de regiones.

¿Voces de texto a voz de OpenAI mediante Azure OpenAI Service o Voz de Azure AI?

Si desea usar las voces de texto a voz de OpenAI, puede elegir si quiere usarlas con Azure OpenAI o Voz de Azure AI. En cualquier caso, el resultado de la síntesis de voz es el mismo.

Esta es una comparación de las características entre las voces de texto a voz de OpenAI en Azure OpenAI Service y las voces de texto a voz de OpenAI en Voz de Azure AI.

Característica	Azure OpenAI Service (voces de OpenAI)	Voz de Azure AI (voces de OpenAI)	Voces de Voz de Azure AI
Región	Centro-norte de EE. UU., Centro de Suecia	Centro-norte de EE. UU., Centro de Suecia	Disponible en docenas de regiones. Consulte la lista de regiones.
Variedad de voz	6	6	Más de 400
Número de voces multilingües	6	6	14
Cobertura máxima de idiomas multilingües	57	57	77
Compatibilidad con lenguaje de marcado de síntesis de voz (SSML)	No compatible	Compatibilidad con un subconjunto de elementos SSML.	Compatibilidad con el conjunto completo de SSML en Voz de Azure AI.
Opciones de desarrollo	REST API	SDK de Voz, CLI de Voz, API de REST	SDK de Voz, CLI de Voz, API de REST
Opción de implementación	Solo en la nube	Solo en la nube	Nube, insertada, híbrida y contenedores.
Síntesis por lotes o en tiempo real	Tiempo real	Síntesis por lotes y en tiempo real	Síntesis por lotes y en tiempo real
Latency	más de 500 ms	más de 500 ms	menos de 300 ms
Frecuencia de muestreo de audio sintetizado	24 KHz	8, 16, 24 y 48 kHz	8, 16, 24 y 48 kHz
Formato de audio de salida de voz	opus, mp3, aac, flac	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk

Hay características y funcionalidades adicionales disponibles en Voz de Azure AI que no están disponibles con voces de OpenAI. Por ejemplo:

Las voces de texto a voz de OpenAI en Azure AI Speech solo admiten un subconjunto de elementos SSML. Las voces de Voz de Azure AI admiten el conjunto completo de elementos SSML.
Voz de Azure AI admite eventos de límite de palabras. Las voces de OpenAI no admiten eventos de límite de palabras.

Elementos SSML compatibles con las voces de texto a voz de OpenAI en Voz de Azure AI

El lenguaje de marcado de síntesis de voz (SSML) con texto de entrada determina la estructura, el contenido y otras características de la salida de texto a voz. Por ejemplo, puede usar SSML para definir un párrafo, una oración, una interrupción o pausa, o un silencio. Puede encapsular texto con etiquetas de eventos como un delimitador o viseme que la aplicación puede procesar más adelante.

En la tabla siguiente se describen los elementos del lenguaje de marcado de síntesis de voz (SSML) admitidos por las voces de texto a voz de OpenAI en Voz de Azure AI. Solo se admite el siguiente subconjunto de etiquetas SSML para las voces de OpenAI. Consulte Estructura y eventos de documentos SSML para obtener más información.

Nombre del elemento SSML	Descripción
`<speak>`	Incluye todo el contenido que se va a hablar. Es el elemento raíz de un documento SSML.
`<voice>`	Especifica una voz que se usa para la salida de texto a voz.
`<sub>`	Indica que el valor de texto del atributo del alias debe pronunciarse en lugar del texto incluido del elemento.
`<say-as>`	Indica el tipo de contenido (por ejemplo, un número o una fecha) del texto del elemento. Todos los valores de propiedad `interpret-as` se admiten para este elemento, excepto `interpret-as="name"`. Por ejemplo, se admite `<say-as interpret-as="date" format="dmy">10-12-2016</say-as>`, pero no se admite `<say-as interpret-as="name">ED</say-as>`. Para obtener más información, consulte pronunciación con SSML.
`<s>`	Denota oraciones.
`<lang>`	Indica la configuración regional predeterminada para el idioma que desea que hable la voz neuronal.
`<break>`	Úselo para invalidar el comportamiento predeterminado de saltos o pausas entre palabras.

¿Qué son las voces de texto a voz de OpenAI?

Voces de texto a voz disponibles en los servicios de Azure AI

¿Voces de texto a voz de OpenAI mediante Azure OpenAI Service o Voz de Azure AI?

Elementos SSML compatibles con las voces de texto a voz de OpenAI en Voz de Azure AI

Pasos siguientes

Recursos adicionales