Che cos'è la voce personalizzata?

2025-06-02

La voce personalizzata è una funzionalità di sintesi vocale che consente di creare una voce sintetica unica nel suo genere per le applicazioni. Con la voce personalizzata, è possibile creare una voce altamente naturale per il marchio o i personaggi fornendo esempi di riconoscimento vocale umano come dati di ottimizzazione.

Importante

L'accesso vocale personalizzato è limitato in base all'idoneità e ai criteri di utilizzo. Richiedi l'accesso tramite il modulo di accettazione.

Fin da subito, la sintesi vocale può essere usata con voci standard per ogni lingua supportata. Le voci standard funzionano bene nella maggior parte degli scenari di sintesi vocale se non è necessaria una voce univoca.

La voce personalizzata si basa sulla tecnologia neurale di sintesi vocale e sul modello universale multilingue, con più voci. Puoi creare voci sintetiche ricche di stili parlati o adattabili in lingue diverse. La voce realistica e naturale della voce personalizzata può rappresentare marchi, personificare le macchine e consentire agli utenti di interagire con le applicazioni in modo conversazionali. Vedere le lingue supportate per la voce personalizzata.

Come funziona?

Per creare una voce personalizzata, usare Speech Studio per caricare l'audio registrato e gli script corrispondenti, eseguire il training del modello e distribuire la voce in un endpoint personalizzato.

La creazione di una voce personalizzata ottimale richiede un controllo di qualità accurato in ogni passaggio, dalla progettazione vocale e dalla preparazione dei dati, alla distribuzione del modello vocale nel sistema.

Prima di iniziare a usare Speech Studio, ecco alcune considerazioni:

Progetta un utente tipo della voce che rappresenta il marchio usando un breve documento. Questo documento definisce elementi come le caratteristiche della voce e il carattere dietro la voce. Ciò consente di guidare il processo di creazione di un modello vocale personalizzato, inclusa la definizione degli script, la selezione del talento vocale, il training e l'ottimizzazione vocale.
Seleziona lo script di registrazione per rappresentare gli scenari utente per la voce. Ad esempio puoi usare le frasi delle conversazioni dei bot come script di registrazione se stai creando un bot per l’assistenza ai clienti. Includi tipi di frasi diversi negli script, incluse istruzioni, domande ed esclamazioni.

Ecco una panoramica dei passaggi per creare una voce personalizzata in Speech Studio:

Crea un progetto che contenga dati, modelli vocali, test ed endpoint. Ogni progetto è specifico per un Paese/regione o una lingua. Se si vogliono creare più voci, è consigliabile creare un progetto per ogni voce.
Configura il talento vocale. Prima di poter ottimizzare una voce professionale, è necessario inviare una registrazione della dichiarazione di consenso del talent vocale. La dichiarazione del talent vocale è una registrazione del talento vocale che legge una dichiarazione in cui acconsente all’utilizzo dei propri dati vocali per l’affinamento professionale della voce.
Preparare i dati di ottimizzazione nel formato corretto. È consigliabile acquisire le registrazioni audio in uno studio di registrazione di qualità professionale per ottenere un rapporto segnale-rumore elevato. La qualità del modello vocale dipende in larga misura dai dati di ottimizzazione. È necessaria coerenza di volume, velocità di pronuncia, intonazione e modi espressivi del parlato.
Esegui il training del modello vocale. Selezionare almeno 300 espressioni per creare una voce personalizzata. Quando le carichi, vengono eseguiti automaticamente una serie di controlli di qualità dei dati. Per creare modelli vocali di alta qualità è necessario correggere eventuali errori e re inviare il tutto.
Testa la voce. Prepara gli script di prova per il modello vocale in modo che coprano i diversi casi d'uso per le app. È consigliabile usare script all'interno e all'esterno del set di dati di training in modo da poter testare la qualità in modo più ampio per contenuti diversi.
Implementa e usa il modello vocale nelle app.

È possibile ottimizzare, regolare e usare la voce personalizzata, analogamente a quella usata per la voce standard. Converti il testo in parlato in tempo reale o genera contenuti audio offline con input di testo. Usare l'API REST, l'SDK Voce o Speech Studio.

Suggerimento

Vedere gli esempi di codice nel repository Speech SDK in GitHub per informazioni su come usare la voce personalizzata nell'applicazione.

Lo stile e le caratteristiche del modello vocale sottoposto a training dipendono dallo stile e dalla qualità delle registrazioni del talento vocale usato per il training. Tuttavia, puoi apportare diverse modifiche usando SSML (Speech Synthesis Markup Language) quando effettui chiamate API al modello vocale per generare la voce sintetica. SSML è il linguaggio di markup usato per comunicare con il servizio di sintesi vocale e convertire il testo in audio. Le rettifiche che è possibile apportare includono modifiche di altezza, velocità, intonazione e correzione della pronuncia. Se il modello vocale viene compilato con più stili, puoi usare SSML anche per cambiare stile.

Sequenza componenti

La voce personalizzata è costituita da tre componenti principali: l'analizzatore del testo, il modello acustico neurale e il vocoder neurale. Per generare una sintesi vocale naturale dal testo, inserisci il testo nell'analizzatore del testo, che fornisce output sotto forma di sequenza di fonemi. Un fonema è un'unità di base del suono che distingue una parola da un'altra in una particolare lingua. Una sequenza di fonemi definisce la pronuncia delle parole fornite nel testo.

Successivamente, la sequenza di fonemi entra nel modello acustico neurale per prevedere le caratteristiche acustiche che definiscono i segnali vocali. Le caratteristiche acustiche includono il timbro, lo stile di pronuncia, la velocità, l’intonazione e i modelli di accento. Infine, il vocoder neurale converte le caratteristiche acustiche in onde udibili, in modo che venga generato il parlato sintetico.

Diagramma di flusso che mostra i componenti della voce personalizzata.

Il training dei modelli di sintesi vocale avviene usando reti neurali profonde in base ai campioni di registrazione delle voci umane. Per altre informazioni, vedi questo post di blog di Microsoft. Per altre informazioni su come viene eseguito il training di un vocoder neurale, vedi questo post di blog di Microsoft.

Intelligenza artificiale responsabile

Un sistema di intelligenza artificiale include non solo la tecnologia ma anche le persone che ne fanno uso, le persone interessate e l'ambiente di distribuzione. Leggere le note sulla trasparenza per informazioni sull'uso e sulla distribuzione di intelligenza artificiale responsabile nei sistemi.

Condividi tramite

Che cos'è la voce personalizzata?

Come funziona?

Sequenza componenti

Intelligenza artificiale responsabile

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive