Eseguire la migrazione del codice dall'API Audio lungo all'API di sintesi batch

Articolo
04/04/2024

L'API di sintesi batch fornisce la sintesi asincrona di testo in formato lungo per la sintesi vocale. Questo articolo descrive i vantaggi dell'aggiornamento dall'API Audio lungo all'API di sintesi batch e illustra in dettaglio come eseguire questa operazione.

Importante

L'API di sintesi batch è disponibile a livello generale. L'API Audio lungo verrà ritirata il 1° aprile 2027.

Percorso di base e versione

Aggiornare l'endpoint da https://YourSpeechRegion.customvoice.api.speech.microsoft.com a https://YourSpeechRegion.api.cognitive.microsoft.com o è possibile usare invece un dominio personalizzato: https://{customDomainName}.cognitiveservices.azure.com/.

Aggiornare il percorso di base nel codice da /texttospeech/v3.0/longaudiosynthesis a /texttospeech/batchsyntheses.

Aggiornare la versione dal percorso di base alla stringa /texttospeech/v3.0/longaudiosynthesis di query a ?api-version=2024-04-01.

Ad esempio, per elencare i processi di sintesi per la risorsa Voce nell'area eastus , usare https://eastus.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01 invece di https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/v3.0/longaudiosynthesis.

Aree ed endpoint

L'API di sintesi batch è disponibile in più aree di riconoscimento vocale.

L'API Audio lungo è limitata alle aree seguenti:

Area	Endpoint
Australia orientale	`https://australiaeast.customvoice.api.speech.microsoft.com`
Stati Uniti orientali	`https://eastus.customvoice.api.speech.microsoft.com`
India centrale	`https://centralindia.customvoice.api.speech.microsoft.com`
Stati Uniti centro-meridionali	`https://southcentralus.customvoice.api.speech.microsoft.com`
Asia sud-orientale	`https://southeastasia.customvoice.api.speech.microsoft.com`
Regno Unito meridionale	`https://uksouth.customvoice.api.speech.microsoft.com`
Europa occidentale	`https://westeurope.customvoice.api.speech.microsoft.com`

Elenco voci

L'API di sintesi batch supporta tutte le voci e gli stili di sintesi vocale.

L'API Audio lungo è limitata al set di voci restituite da una richiesta GET a https://<endpoint>/api/texttospeech/v3.0/longaudiosynthesis/voices.

Input di testo

Gli input di testo di sintesi batch vengono inviati in un payload JSON di un massimo di 2 megabyte.

Gli input di testo dell'API Audio lungo vengono caricati da un file che soddisfa i requisiti seguenti:

Un file di testo normale (.txt) o testo SSML (.txt) codificato come UTF-8 con byte Order Mark (BOM). Non usare file compressi, ad esempio ZIP. Se si dispone di più file di input, è necessario inviare più richieste.
Contiene più di 400 caratteri per testo normale o 400 caratteri fatturabili per il testo SSML e meno di 10.000 paragrafi. Per il testo normale, ogni paragrafo è separato da una nuova riga. Per il testo SSML, ogni parte di SSML viene considerata un paragrafo. Separare le parti SSML in base a paragrafi diversi.

Con l'API di sintesi batch è possibile usare uno qualsiasi degli elementi SSML supportati, inclusi gli audioelementi , mstts:backgroundaudioe lexicon . L'API audio lunga non supporta gli audioelementi , mstts:backgroundaudioe lexicon .

Formati di output audio

L'API di sintesi batch supporta tutti i formati di output audio vocale.

L'API Audio lungo è limitata al set seguente di formati di output audio. La frequenza di campionamento per le voci audio lunghe è 24kHz, non 48 kHz. È possibile ottenere altre frequenze di campionamento tramite l'upsampling o il downcampionamento durante la sintesi.

riff-8khz-16bit-mono-pcm
riff-16khz-16bit-mono-pcm
riff-24khz-16bit-mono-pcm
riff-48khz-16bit-mono-pcm
audio-16khz-32kbitrate-mono-mp3
audio-16khz-64kbitrate-mono-mp3
audio-16khz-128kbitrate-mono-mp3
audio-24khz-48kbitrate-mono-mp3
audio-24khz-96kbitrate-mono-mp3
audio-24khz-160kbitrate-mono-mp3

Risultati

Con l'API di sintesi batch, usare l'URL della outputs.result proprietà della risposta di sintesi batch HTTP GET. I risultati si trovano in un file ZIP che contiene l'audio (ad esempio 0001.wav), riepilogo e dettagli di debug.

Gli input di testo e i risultati dell'API Audio lungo vengono restituiti tramite due URL di contenuto separati, come illustrato nell'esempio seguente. Quello con "kind": "LongAudioSynthesisScript" è lo script di input inviato. L'altro con "kind": "LongAudioSynthesisResult" è il risultato di questa richiesta. Entrambi i file ZIP possono essere scaricati dall'URL nella relativa links.contentUrl proprietà.

Pulizia delle risorse

L'API di sintesi batch supporta fino a 300 processi di sintesi batch che non hanno lo stato "Succeeded" o "Failed". Il servizio Di riconoscimento vocale mantiene ogni cronologia di sintesi per un massimo di 31 giorni o la durata della proprietà della richiesta timeToLiveInHours , a qualsiasi tempo si verifichi prima. La data e l'ora dell'eliminazione automatica (per i lastActionDateTime + timeToLiveInHours processi di sintesi con stato "Succeeded" o "Failed") è uguale alle proprietà .

L'API Audio lungo è limitata a 20.000 richieste per ogni account di sottoscrizione di Azure. Il servizio Voce non rimuove automaticamente la cronologia dei processi. È necessario rimuovere la cronologia di esecuzione del processo precedente prima di effettuare nuove richieste che altrimenti superano il limite.