Che cos'è la sintesi vocale?

Articolo
10/31/2024

In questa panoramica vengono illustrati i vantaggi e le caratteristiche della funzionalità di sintesi vocale del servizio Voce, che fa parte dei servizi di Intelligenza artificiale di Azure.

La sintesi vocale consente ad applicazioni, strumenti o dispositivi di convertire il testo in una voce sintetizzata simile a quella umana. La funzionalità di sintesi vocale è nota anche come conversione da testo a voce. È possibile usare voci neurali predefinite oppure creare una voce neurale personalizzata univoca per il prodotto o il marchio. Per un elenco completo di voci, lingue e impostazioni locali supportate, vedere Lingue e voci supportate per il servizio Voce.

Funzionalità di base

La sintesi vocale include le funzionalità seguenti:

Funzionalità	Riepilogo	Demo
Voce neurale predefinita (denominata Neurale nella pagina dei prezzi)	Voci predefinite con caratteristiche estremamente naturali. Creare una sottoscrizione di Azure e una risorsa Voce e quindi usare Speech SDK o visitare il portale di Speech Studio e selezionare voci neurali predefinite per iniziare. Vedere le informazioni sui prezzi.	Consultare la raccolta di voci e determinare la voce più adatta alle esigenze aziendali.
Voce neurale personalizzata (denominata neurale personalizzata nella pagina dei prezzi)	Funzionalità self-service facile da usare per la creazione di una voce naturale per il marchio, con accesso limitato per l'uso responsabile. Creare una sottoscrizione di Azure e una risorsa Voce (con il livello S0) e applicare per usare la funzionalità voce personalizzata. Dopo avere ottenuto l'accesso, visitare il portale di Speech Studio e selezionare Voce personalizzata per iniziare. Vedere le informazioni sui prezzi.	Esaminare i campioni vocali.

Altre informazioni sulle funzionalità di sintesi vocale neurale

La sintesi vocale usa reti neurali profonde per rendere le voci dei computer quasi indistinguibili dalle registrazioni delle persone. Grazie all'articolazione chiara delle parole, la sintesi vocale neurale riduce in modo significativo le difficoltà di ascolto quando gli utenti interagiscono con i sistemi di intelligenza artificiale.

I modelli di accento e intonazione nella lingua parlata sono detti prosodia. I sistemi di sintesi vocale tradizionali suddividono la prosodia in passaggi distinti di analisi linguistica e previsione acustica, regolati da modelli indipendenti. Ciò può causare scarsa nitidezza o rumori di fondo nella sintesi vocale.

Di seguito sono illustrate altre informazioni sulle funzionalità di sintesi vocale neurale nel servizio Voce e su come queste consentano di superare i limiti dei sistemi di sintesi vocale tradizionali:

Sintesi vocale in tempo reale: tramite Speech SDK o l'API REST il testo viene convertito in parlato usando voci neurali predefinite o voci neurali personalizzate.
Sintesi asincrona di audio di lunga durata: tramite l'API di sintesi batch viene sintetizzare in modo asincrono il testo in file di sintesi vocali più lunghi di 10 minuti (ad esempio, audiolibri o conferenze). A differenza della sintesi eseguita tramite Speech SDK o l'API REST di riconoscimento vocale, le risposte non vengono restituite in tempo reale. L'idea è che le richieste vengono inviate in modo asincrono, viene effettuato il polling delle risposte e l'audio sintetizzato viene scaricato quando il servizio lo rende disponibile.
Voci neurali predefinite: Voce di Azure AI usa reti neurali profonde per superare i limiti della sintesi vocale tradizionale in relazione all'accento e all'intonazione nella lingua parlata. La previsione della prosodia e la sintesi vocale avvengono simultaneamente, con risultati più fluidi e naturali. Ogni modello di voce neurale predefinito è disponibile a 24kHz e a 48 kHz ad alta fedeltà. È possibile usare le voci neurali per:
- Rendere le interazioni con chatbot e assistenti vocali più naturali e coinvolgenti.
- Convertire testi digitali come gli e-book in audiolibri.
- Migliorare i sistemi di navigazione per le auto.
Per un elenco completo delle voci neurali di Riconoscimento vocale di Azure per intelligenza artificiale di Azure predefinite, vedere Lingua e supporto vocale per il servizio Voce.
Migliorare l'output della sintesi vocale con SSML: Speech Synthesis Markup Language (SSML) è un linguaggio di markup basato su XML usato per personalizzare gli output della sintesi vocale. Con SSML è possibile modificare il tono, aggiungere pause, migliorare la pronuncia, modificare la velocità del parlato, regolare il volume e attribuire più voci a un singolo documento.

È possibile usare SSML per definire un lessico personalizzato o passare a modi di parlare diversi. Con le voci multilingue, è anche possibile modificare la lingua parlata tramite SSML. Per migliorare l'output vocale per uno scenario specifico, vedere Migliorare la sintesi con Speech Synthesis Markup Language e Sintesi vocale con lo strumento Creazione di contenuto audio.
Visemi: i visemi sono le posizioni chiave quando si osserva una persona che parla, tra cui la posizione delle labbra, della mascella e della lingua nella produzione di un particolare fonema. I visemi hanno una forte correlazione con voci e fonemi.

Usando gli eventi dei visemi in Speech SDK, è possibile generare dati di animazione facciale. Questi dati possono essere usati per animare i visi nelle comunicazioni basate sulla lettura labiale, per l'istruzione, per l'intrattenimento e per l'assistenza clienti. Il visema è attualmente supportato solo per le voci neurali per la lingua en-US (inglese Stati Uniti).

Nota

Oltre alle voci neurali non HD (Speech Neural) di Azure per intelligenza artificiale, è anche possibile usare le voci HD (Speech High Definition) di Azure per intelligenza artificiale e le voci neurali OpenAI (HD e non HD) di Azure. Le voci HD offrono una qualità più elevata per scenari più versatili.

Alcune voci non supportano tutti i tag SSML (Speech Synthesis Markup Language). Sono inclusi testo neurale per voce HD, voci personali e voci incorporate.

Per le voci HD (Speech High Definition) di Azure per intelligenza artificiale, vedere il supporto di SSML qui.
Per la voce personale, è possibile trovare il supporto SSML qui.
Per le voci incorporate, vedere il supporto di SSML qui.

Operazioni preliminari

Per iniziare a usare la sintesi vocale, vedere la guida di avvio rapido. La sintesi vocale è disponibile tramite Speech SDK, l'API REST e l'interfaccia della riga di comando del servizio Voce.

Suggerimento

Per eseguire la sintesi vocale con un approccio senza codice, provare lo strumento Creazione di contenuto audio in Speech Studio.

Codice di esempio

Il codice di esempio per la sintesi vocale è disponibile in GitHub. Questi esempi illustrano la sintesi vocale nei linguaggi di programmazione più diffusi:

Sintesi vocale neurale

Oltre alle voci neurali predefinite, è possibile creare sintesi vocali neurali univoche per il prodotto o il marchio. Per iniziare, sono sufficienti alcuni file audio e le trascrizioni associate. Per altre informazioni, vedere Introduzione a Sintesi vocale neurale.

Nota sui prezzi

Caratteri fatturabili

Quando si usa la funzionalità di sintesi vocale, viene addebitato un costo per ogni carattere convertito in parlato, inclusa la punteggiatura. Anche se il documento SSML stesso non è fatturabile, gli elementi facoltativi usati per definire il modo in cui il testo viene convertito in parlato, ad esempio i fonemi e il tono, vengono conteggiati come caratteri fatturabili. Ecco un elenco degli elementi fatturabili:

Testo passato alla funzionalità di sintesi vocale nel corpo SSML della richiesta
Tutto il markup all'interno del campo di testo del corpo della richiesta nel formato SSML, ad eccezione dei tag <speak> e <voice>
Lettere, punteggiatura, spazi, tabulazioni, markup e tutti gli spazi vuoti
Ogni elemento di codice definito in Unicode

Per informazioni dettagliate, vedere Prezzi del servizio Voce.

Importante

Ogni carattere cinese viene conteggiato come due caratteri ai fini della fatturazione, inclusi i caratteri kanji usati in giapponese, hanja usati in coreano o hanzi usati in altre lingue.

Training del modello e tempo di hosting per la funzionalità Sintesi vocale neurale

Il training e l'hosting di Sintesi vocale neurale vengono calcolati per ora e fatturati al secondo. Per il prezzo unitario di fatturazione, vedere Prezzi del servizio Voce.

Il tempo di training di CNV (Custom Neural Voice, Sintesi vocale neurale) viene misurato in base a un'unità detta "ora di calcolo" (un'unità per misurare il tempo di esecuzione del computer). In genere, quando si esegue il training di un modello vocale, vengono eseguite in parallelo due attività di calcolo. Le ore di calcolo conteggiate sono pertanto maggiori del tempo di training effettivo. In media, è necessaria meno di un'ora di calcolo per eseguire il training di una voce CNV Lite; mentre per CNV Pro sono in genere necessarie da 20 a 40 ore di calcolo per eseguire il training di una voce con uno stile singolo e circa 90 ore di calcolo per eseguire il training di una voce con più stili. Il tempo di training di CNV viene fatturato rispettando un limite di 96 ore di calcolo. Nel caso in cui venga eseguito il training di un modello vocale in 98 ore di calcolo, vengono quindi addebitate solo 96 ore di calcolo.

L'hosting di endpoint CNV (Sintesi vocale neurale) viene misurato in base al tempo effettivo (ore). Il tempo di hosting (ore) per ogni endpoint viene calcolato alle 00:00 UTC ogni giorno per le 24 ore precedenti. Se, ad esempio, l'endpoint è stato attivo per 24 ore il giorno 1, vengono addebitate 24 ore alle 00:00 UTC del secondo giorno. Se l'endpoint è stato appena creato o sospeso durante il giorno, viene addebitato il tempo di esecuzione accumulato fino alle 00:00 UTC del secondo giorno. Se l'endpoint non è attualmente ospitato, non viene fatturato. Oltre al calcolo giornaliero eseguito alle 00:00 UTC di ogni giorno, la fatturazione viene attivata immediatamente quando un endpoint viene eliminato o sospeso. Ad esempio, per un endpoint creato alle 08:00 UTC il 1° dicembre, il tempo di hosting viene calcolato come 16 ore alle 00:00 UTC del 2 dicembre e 24 ore alle 00:00 UTC del 3 dicembre. Se l'utente sospende l'hosting dell'endpoint alle 16:30 UTC del 3 dicembre, per la fatturazione verrà calcolata la durata (16,5 ore) dalle 00:00 alle 16:30 UTC del 3 dicembre.

Voce neurale personalizzata

Quando si usa la funzionalità voce personale, vengono fatturati sia l'archiviazione del profilo che la sintesi.

Archiviazione del profilo: dopo la creazione, un profilo vocale personale verrà fatturato fino alla sua rimozione dal sistema. L'unità di fatturazione è per voce al giorno. Se i dati voce vengono archiviati per meno di 24 ore, verrà fatturato un giorno intero.
Sintesi: viene fatturata per carattere. Per informazioni dettagliate sui caratteri fatturabili, vedere la sezione relativa ai caratteri fatturabili precedente.

Avatar di sintesi vocale

Quando si usa la funzionalità avatar di sintesi vocale, i costi verranno addebitati in base alla lunghezza dell'output video e verranno fatturati al secondo. Tuttavia, per l'avatar in tempo reale, i costi si basano sul tempo in cui l'avatar è attivo, indipendentemente dal fatto che stia parlando o rimanga silenzioso, e verrà addebitato anche al secondo. Per ottimizzare i costi correlati all'utilizzo dell'avatar in tempo reale, fare riferimento ai suggerimenti forniti nel codice di esempio (cercare "Use Local Video for Idle"). L'hosting dell’avatar viene fatturato al secondo per endpoint. È possibile sospendere l'endpoint per risparmiare sui costi. Per sospendere l'endpoint, è possibile eliminarlo direttamente. Per usarlo di nuovo, è sufficiente ridistribuire l'endpoint.

Monitorare le metriche di sintesi vocale di Azure

Il monitoraggio delle metriche chiave associate ai servizi di sintesi vocale è fondamentale per la gestione dell'utilizzo delle risorse e il controllo dei costi. Questa sezione illustra come trovare informazioni sull'utilizzo nel portale di Azure e fornire definizioni dettagliate delle metriche chiave. Per altre informazioni sulle metriche di Monitoraggio di Azure, vedere la Panoramica delle metriche di Monitoraggio di Azure.

Come trovare informazioni sull'utilizzo nel portale di Azure

Per gestire in modo efficace le risorse di Azure, è essenziale accedere ed esaminare regolarmente le informazioni sull'utilizzo. Ecco come trovare le informazioni sull'utilizzo:

Passare al portale di Azure e accedere con il proprio account Azure.
Passare a Risorse e selezionare la risorsa da monitorare.
Selezionare Metriche in Monitoraggio dal menu a sinistra.
Personalizzare le visualizzazioni delle metriche.

È possibile filtrare i dati in base al tipo di risorsa, al tipo di metrica, all'intervallo di tempo e ad altri parametri per creare visualizzazioni personalizzate allineate alle esigenze di monitoraggio. È anche possibile salvare la visualizzazione delle metriche nei dashboard selezionando Salva nel dashboard per semplificare l'accesso alle metriche usate di frequente.
Configurare gli avvisi.

Per gestire l'utilizzo in modo più efficace, configurare gli avvisi passando alla scheda Avvisi in Monitoraggio dal menu a sinistra. Gli avvisi possono inviare notifiche quando l'utilizzo raggiunge soglie specifiche, evitando costi imprevisti.

Definizione delle metriche

Di seguito è riportata una tabella che riepiloga le metriche chiave per i servizi di sintesi vocale di Azure.

Nome metrica	Descrizione
Caratteri sintetizzati	Tiene traccia del numero di caratteri convertiti in parlato, tra cui la sintesi voce neurale predefinita e la sintesi vocale neurale. Per informazioni dettagliate sui caratteri fatturabili, vedere Caratteri fatturabili.
Video secondi sintetizzati	Misura la durata totale del video sintetizzato, tra cui la sintesi avatar batch, la sintesi avatar in tempo reale e la sintesi avatar personalizzata.
Modello avatar che ospita secondi	Tiene traccia del tempo totale in secondi in cui è ospitato il modello avatar personalizzato.
Ore di hosting del modello vocale	Tiene traccia del tempo totale in ore in cui il modello di sintesi vocale neurale è ospitato.
Minuti di training del modello vocale	Misura il tempo totale in minuti per il training del modello di sintesi vocale neurale.

Documentazione di riferimento

Intelligenza artificiale responsabile

Un sistema di intelligenza artificiale include non solo la tecnologia ma anche le persone che ne fanno uso, le persone interessate e l'ambiente di distribuzione. Leggere le note sulla trasparenza per informazioni sull'uso e sulla distribuzione di intelligenza artificiale responsabile nei sistemi.

Condividi tramite