Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
L'API di sintesi batch fornisce la sintesi asincrona di testo in formato lungo per la sintesi vocale. Questo articolo descrive i vantaggi dell'aggiornamento dall'API Audio lungo all'API di sintesi batch e illustra in dettaglio come eseguire questa operazione.
Importante
L'API di sintesi batch è disponibile a livello generale. l'API Audio lungo viene ritirato il 1° aprile 2027.
Percorso di base e versione
Aggiornare l'endpoint da https://YourSpeechRegion.customvoice.api.speech.microsoft.com
a https://YourSpeechRegion.api.cognitive.microsoft.com
o è possibile usare invece un dominio personalizzato: https://{customDomainName}.cognitiveservices.azure.com/
.
Aggiornare il percorso di base nel codice da /texttospeech/v3.0/longaudiosynthesis
a /texttospeech/batchsyntheses
.
Aggiornare la versione dal percorso di base alla stringa /texttospeech/v3.0/longaudiosynthesis
di query a ?api-version=2024-04-01
.
Ad esempio, per elencare i processi di sintesi per la risorsa Voce nell'area eastus
, usare https://eastus.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01
invece di https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/v3.0/longaudiosynthesis
.
Aree ed endpoint
L'API di sintesi batch è disponibile in più aree di riconoscimento vocale.
L'API Audio lungo è limitata alle aree seguenti:
Paese | Endpoint |
---|---|
Australia orientale | https://australiaeast.customvoice.api.speech.microsoft.com |
Stati Uniti orientali | https://eastus.customvoice.api.speech.microsoft.com |
India centrale | https://centralindia.customvoice.api.speech.microsoft.com |
Stati Uniti centro-meridionali | https://southcentralus.customvoice.api.speech.microsoft.com |
Asia sud-orientale | https://southeastasia.customvoice.api.speech.microsoft.com |
Regno Unito meridionale | https://uksouth.customvoice.api.speech.microsoft.com |
Europa occidentale | https://westeurope.customvoice.api.speech.microsoft.com |
Elenco voci
L'API di sintesi batch supporta tutte le voci e gli stili di sintesi vocale.
L'API Audio lungo è limitata al set di voci restituite da una richiesta GET a https://<endpoint>/api/texttospeech/v3.0/longaudiosynthesis/voices
.
Input di testo
Gli input di testo di sintesi batch vengono inviati in un payload JSON di un massimo di 2 megabyte.
Gli input di testo dell'API Audio lungo vengono caricati da un file che soddisfa i requisiti seguenti:
- Un file di testo normale (.txt) o testo SSML (.txt) codificato come UTF-8 con byte Order Mark (BOM). Non usare file compressi, come ad esempio ZIP. Se si dispone di più file di input, è necessario inviare più richieste.
- Contiene più di 400 caratteri per testo normale o 400 caratteri fatturabili per il testo SSML e meno di 10.000 paragrafi. Per il testo normale, ogni paragrafo è separato da una nuova riga. Per il testo SSML, ogni parte di SSML viene considerata un paragrafo. Separare le parti SSML in base a paragrafi diversi.
Con l'API di sintesi batch è possibile usare uno qualsiasi degli elementi SSML supportati, inclusi gli audio
elementi , mstts:backgroundaudio
e lexicon
. L'API audio lunga non supporta gli audio
elementi , mstts:backgroundaudio
e lexicon
.
Formati dell'output audio.
L'API di sintesi batch supporta tutti i formati di output audio vocale.
L'API Audio lungo è limitata al set seguente di formati di output audio. La frequenza di campionamento per le voci audio lunghe è 24kHz, non 48 kHz. È possibile ottenere altre frequenze di campionamento tramite sovracampionamento o ricampionamento durante la sintesi.
- riff-8khz-16bit-mono-pcm
- riff-16khz-16bit-mono-pcm
- riff-24khz-16bit-mono-pcm
- riff-48khz-16bit-mono-pcm
- audio-16khz-32kbitrate-mono-mp3
- audio-16khz-64kbitrate-mono-mp3
- audio-16khz-128kbitrate-mono-mp3
- audio-24khz-48kbitrate-mono-mp3
- audio-24khz-96kbitrate-mono-mp3
- audio-24khz-160kbitrate-mono-mp3
Risultati
Con l'API di sintesi batch, usare l'URL della outputs.result
proprietà della risposta di sintesi batch HTTP GET. I risultati si trovano in un file ZIP che contiene l'audio (ad esempio 0001.wav
), riepilogo e dettagli di debug.
Gli input di testo e i risultati dell'API Audio lungo vengono restituiti tramite due URL di contenuto separati, come illustrato nell'esempio seguente. Quello con "kind": "LongAudioSynthesisScript"
è lo script di input inviato. L'altro, con "kind": "LongAudioSynthesisResult"
, è il risultato di tale richiesta. Entrambi i file ZIP possono essere scaricati dall'URL nella relativa links.contentUrl
proprietà.
Pulizia delle risorse
L'API di sintesi batch supporta fino a 300 processi di sintesi batch che non hanno lo stato "Succeeded" o "Failed". Il servizio Di riconoscimento vocale mantiene ogni cronologia di sintesi per un massimo di 31 giorni o la durata della proprietà della richiesta timeToLiveInHours
, a qualsiasi tempo si verifichi prima. La data e l'ora dell'eliminazione automatica (per i processi di sintesi con stato "Succeeded" o "Failed") è uguale alle proprietà lastActionDateTime
+ timeToLiveInHours
.
L'API Audio lungo è limitata a 20.000 richieste per ogni account di sottoscrizione di Azure. Il servizio Voce non rimuove automaticamente la cronologia dei processi. È necessario rimuovere la cronologia di esecuzione del processo precedente prima di effettuare nuove richieste che altrimenti superano il limite.