Eseguire la migrazione del codice dall'API Audio lungo all'API di sintesi batch

L'API di sintesi batch (anteprima) fornisce la sintesi asincrona del testo in formato lungo per la sintesi vocale. Questo articolo descrive i vantaggi dell'aggiornamento dall'API Audio lungo all'API di sintesi batch e illustra in dettaglio come eseguire questa operazione.

Importante

L'API di sintesi batch è attualmente disponibile in anteprima pubblica. Una volta disponibile a livello generale, l'API Audio lungo verrà deprecata.

Percorso di base

È necessario aggiornare il percorso di base nel codice da /texttospeech/v3.0/longaudiosynthesis a /texttospeech/3.1-preview1/batchsynthesis. Ad esempio, per elencare i processi di sintesi per la risorsa Voce nell'area eastus , usare https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/3.1-preview1/batchsynthesis invece di https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/v3.0/longaudiosynthesis.

Aree ed endpoint

L'API di sintesi batch è disponibile in tutte le aree di riconoscimento vocale.

L'API Audio lungo è limitata alle aree seguenti:

Area Endpoint
Australia orientale https://australiaeast.customvoice.api.speech.microsoft.com
Stati Uniti orientali https://eastus.customvoice.api.speech.microsoft.com
India centrale https://centralindia.customvoice.api.speech.microsoft.com
Stati Uniti centro-meridionali https://southcentralus.customvoice.api.speech.microsoft.com
Asia sud-orientale https://southeastasia.customvoice.api.speech.microsoft.com
Regno Unito meridionale https://uksouth.customvoice.api.speech.microsoft.com
Europa occidentale https://westeurope.customvoice.api.speech.microsoft.com

Elenco voci

L'API di sintesi batch supporta tutte le voci e gli stili di sintesi vocale.

L'API Audio lungo è limitata al set di voci restituite da una richiesta GET a https://<endpoint>/api/texttospeech/v3.0/longaudiosynthesis/voices.

Input di testo

Gli input di testo di sintesi batch vengono inviati in un payload JSON di un massimo di 500 kilobyte.

Gli input di testo dell'API Audio lungo vengono caricati da un file che soddisfa i requisiti seguenti:

  • Un file di testo normale (.txt) o testo SSML (.txt) codificato come UTF-8 con byte Order Mark (BOM). Non usare file compressi, ad esempio ZIP. Se si dispone di più file di input, è necessario inviare più richieste.
  • Contiene più di 400 caratteri per testo normale o 400 caratteri fatturabili per il testo SSML e meno di 10.000 paragrafi. Per il testo normale, ogni paragrafo è separato da una nuova riga. Per il testo SSML, ogni parte di SSML viene considerata un paragrafo. Separare le parti SSML in base a paragrafi diversi.

Con l'API di sintesi batch è possibile usare uno qualsiasi degli elementi SSML supportati, inclusi gli audioelementi , mstts:backgroundaudioe lexicon . L'API audio lunga non supporta gli audioelementi , mstts:backgroundaudioe lexicon .

Formati di output audio

L'API di sintesi batch supporta tutti i formati di output audio vocale.

L'API Audio lungo è limitata al set seguente di formati di output audio. La frequenza di campionamento per le voci audio lunghe è 24kHz, non 48 kHz. È possibile ottenere altre frequenze di campionamento tramite l'upsampling o il downcampionamento durante la sintesi.

  • riff-8khz-16bit-mono-pcm
  • riff-16khz-16bit-mono-pcm
  • riff-24khz-16bit-mono-pcm
  • riff-48khz-16bit-mono-pcm
  • audio-16khz-32kbitrate-mono-mp3
  • audio-16khz-64kbitrate-mono-mp3
  • audio-16khz-128kbitrate-mono-mp3
  • audio-24khz-48kbitrate-mono-mp3
  • audio-24khz-96kbitrate-mono-mp3
  • audio-24khz-160kbitrate-mono-mp3

Risultati

Con l'API di sintesi batch, usare l'URL della outputs.result proprietà della risposta di sintesi batch HTTP GET. I risultati si trovano in un file ZIP che contiene l'audio (ad esempio 0001.wav), riepilogo e dettagli di debug.

Gli input di testo e i risultati dell'API Audio lungo vengono restituiti tramite due URL di contenuto separati, come illustrato nell'esempio seguente. Quello con "kind": "LongAudioSynthesisScript" è lo script di input inviato. L'altro con "kind": "LongAudioSynthesisResult" è il risultato di questa richiesta. Entrambi i file ZIP possono essere scaricati dall'URL nella relativa links.contentUrl proprietà.

Pulizia delle risorse

L'API di sintesi batch supporta fino a 200 processi di sintesi batch che non hanno lo stato "Succeeded" o "Failed". Il servizio Di riconoscimento vocale mantiene ogni cronologia di sintesi per un massimo di 31 giorni o la durata della proprietà della richiesta timeToLive , a qualsiasi tempo si verifichi prima. La data e l'ora dell'eliminazione automatica (per i lastActionDateTime + timeToLive processi di sintesi con stato "Succeeded" o "Failed") è uguale alle proprietà .

L'API Audio lungo è limitata a 20.000 richieste per ogni account di sottoscrizione di Azure. Il servizio Voce non rimuove automaticamente la cronologia dei processi. È necessario rimuovere la cronologia di esecuzione del processo precedente prima di effettuare nuove richieste che altrimenti superano il limite.

Passaggi successivi