Migración de código de Long Audio API a Batch synthesis API

Artículo
04/04/2024

La API de síntesis de Batch proporciona síntesis asincrónica de texto de forma larga a voz. En este artículo se describen las ventajas de la actualización de Long Audio API a la API de síntesis de Batch y detalles sobre cómo hacerlo.

Importante

La API de síntesis por lotes está disponible con carácter general. Long Audio API se retirará el 1 de abril de 2027.

Ruta de acceso base y versión

Actualice el punto de conexión de https://YourSpeechRegion.customvoice.api.speech.microsoft.com a https://YourSpeechRegion.api.cognitive.microsoft.com o puede usar un dominio personalizado en su lugar: https://{customDomainName}.cognitiveservices.azure.com/.

Actualice la ruta de acceso base del código de /texttospeech/v3.0/longaudiosynthesis a /texttospeech/batchsyntheses.

Actualice la versión de la ruta de acceso base a la cadena /texttospeech/v3.0/longaudiosynthesis de consulta a ?api-version=2024-04-01.

Por ejemplo, para enumerar los trabajos de síntesis del recurso de Voz en la región eastus, use https://eastus.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01 en lugar de https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/v3.0/longaudiosynthesis.

Regiones y puntos de conexión

La API de síntesis por lotes está disponible en más regiones de Voz.

Long Audio API se limita a las regiones siguientes:

Region	Punto de conexión
Este de Australia	`https://australiaeast.customvoice.api.speech.microsoft.com`
Este de EE. UU.	`https://eastus.customvoice.api.speech.microsoft.com`
India central	`https://centralindia.customvoice.api.speech.microsoft.com`
Centro-sur de EE. UU.	`https://southcentralus.customvoice.api.speech.microsoft.com`
Sudeste de Asia	`https://southeastasia.customvoice.api.speech.microsoft.com`
Sur de Reino Unido 2	`https://uksouth.customvoice.api.speech.microsoft.com`
Oeste de Europa	`https://westeurope.customvoice.api.speech.microsoft.com`

Lista de voces

Batch synthesis API admite todas las voces y estilos de texto a voz.

Long Audio API se limita al conjunto de voces devueltas por una solicitud GET a https://<endpoint>/api/texttospeech/v3.0/longaudiosynthesis/voices.

Entradas de texto

Las entradas de texto de síntesis por lotes se envían en una carga JSON de hasta 2 megabytes.

Las entradas de texto de Long Audio API se cargan desde un archivo que cumple los requisitos siguientes:

Un archivo de texto sin formato (.txt) o de texto SSML (.txt) codificado como UTF-8 con marca BOM. No use archivos comprimidos como ZIP. Si tiene más de un archivo de entrada, tendrá que enviar varias solicitudes.
Contiene más de 400 caracteres para texto sin formato o 400 caracteres facturables para texto SSML y menos de 10 000 párrafos. En el caso de texto sin formato, cada párrafo se separa por una línea nueva. En el caso de texto SSML, cada fragmento de SSML se considera un párrafo. Separe las partes de SSML en párrafos diferentes.

Con Batch synthesis API, puede usar cualquiera de los elementos SSML admitidos, incluidos los elementos audio, mstts:backgroundaudio y lexicon. La API de audio larga no admite los audioelementos , mstts:backgroundaudioy lexicon .

Formatos de salida de audio

Batch synthesis API admite todos los formatos de salida de audio de texto a voz.

Long Audio API se limita al siguiente conjunto de formatos de salida de audio. La frecuencia de muestreo para las voces de audio de larga duración es de 24 kHz, no de 48 kHz. Se pueden obtener otras frecuencias de muestreo si se aumenta o reduce el tamaño de los audios al sintetizar.

riff-8khz-16bit-mono-pcm
riff-16khz-16bit-mono-pcm
riff-24khz-16bit-mono-pcm
riff-48khz-16bit-mono-pcm
audio-16khz-32kbitrate-mono-mp3
audio-16khz-64kbitrate-mono-mp3
audio-16khz-128kbitrate-mono-mp3
audio-24khz-48kbitrate-mono-mp3
audio-24khz-96kbitrate-mono-mp3
audio-24khz-160kbitrate-mono-mp3

Obtención de resultados

Con la API de síntesis por lotes, use la dirección URL de la propiedad de la outputs.result respuesta de síntesis por lotes HTTP GET. Los resultados se encuentran en un archivo ZIP que contiene el audio (como 0001.wav), un resumen y los detalles de depuración.

Las entradas de texto y los resultados de Long Audio API se devuelven a través de dos direcciones URL de contenido independientes, como se muestra en el ejemplo siguiente. El que tiene "kind": "LongAudioSynthesisScript" es el script de entrada enviado. El otro con "kind": "LongAudioSynthesisResult" es el resultado de esta solicitud. Ambos archivos ZIP se pueden descargar desde la dirección URL de su propiedad links.contentUrl.

Limpiar recursos

Batch synthesis API admite hasta 300 trabajos de síntesis por lotes que no tienen el estado "Succeeded" o "Failed". El servicio voz mantiene cada historial de síntesis durante un máximo de 31 días o la duración de la propiedad de solicitud timeToLiveInHours , lo que ocurra antes. La fecha y hora de eliminación automática (para trabajos de síntesis con el estado "Correcto" o "Error") es igual a las propiedades lastActionDateTime + timeToLiveInHours.

Long Audio API tiene un límite de 20 000 solicitudes para cada cuenta de suscripción de Azure. El servicio de Voz no quita automáticamente el historial de trabajos. Debe quitar el historial de ejecución del trabajo anterior antes de realizar nuevas solicitudes, o de lo contrario se podría superar el límite.