Che cos'è la sintesi vocale neurale?
Sintesi vocale neurale (CNV) è una funzionalità di sintesi vocale che consente di creare una voce sintetica personalizzata e unica per le applicazioni. Con Sintesi vocale neurale, è possibile creare una voce molto naturale per il tuo marchio o i tuoi personaggi inserendo campioni audio come dati di training.
Importante
L'accesso a Sintesi vocale neurale è limitato in base ai criteri di idoneità e utilizzo. Richiedi l'accesso tramite il modulo di accettazione.
L'accesso a Sintesi vocale neurale (CNV) Lite è disponibile a chiunque voglia una demo per valutare CNV per creare una voce di qualità superiore prima di investire in registrazioni professionali.
È possibile usare la sintesi vocale con voci neurali predefinite per ogni lingua supportata. Le voci neurali predefinite funzionano bene nella maggior parte degli scenari di sintesi vocale in cui non è necessaria una voce univoca.
Sintesi vocale neurale si basa sulla tecnologia neurale di sintesi vocale e sul modello universale multilingue, multi-parlante. Puoi creare voci sintetiche ricche di stili parlati o adattabili in lingue diverse. La voce realistica e dal suono naturale di Sintesi vocale neurale può rappresentare i marchi, personificare i computer e consentire agli utenti di interagire con le applicazioni in modo colloquiale. Vedere le lingue supportate da Sintesi vocale neurale.
Come funziona?
Per creare una voce neurale personalizzata, usa Speech Studio per caricare l'audio registrato e gli script corrispondenti, eseguire il training del modello e implementare la voce in un endpoint personalizzato.
Suggerimento
Provare Sintesi vocale neurale (CNV) Lite per demo e valutare CNV prima di investire in registrazioni professionali per creare una voce di qualità superiore.
La creazione di una voce neurale personalizzata ottimale richiede un controllo di qualità accurato in ogni passaggio, dalla progettazione vocale e la preparazione dei dati alla distribuzione del modello vocale nel sistema.
Prima di iniziare a usare Speech Studio, ecco alcune considerazioni:
- Progetta un utente tipo della voce che rappresenta il marchio usando un breve documento. Questo documento definisce elementi come le caratteristiche della voce e il carattere dietro la voce. Ciò consente di guidare il processo di creazione di un modello vocale neurale personalizzato, inclusa la definizione degli script, la selezione del talento vocale, il training e l'ottimizzazione della voce.
- Seleziona lo script di registrazione per rappresentare gli scenari utente per la voce. Ad esempio puoi usare le frasi delle conversazioni dei bot come script di registrazione se stai creando un bot per l’assistenza ai clienti. Includi tipi di frasi diversi negli script, incluse istruzioni, domande ed esclamazioni.
Ecco una panoramica dei passaggi per creare una voce neurale personalizzata in Speech Studio:
- Crea un progetto che contenga dati, modelli vocali, test ed endpoint. Ogni progetto è specifico per un Paese/regione o una lingua. Se si vogliono creare più voci, è consigliabile creare un progetto per ogni voce.
- Configura il talento vocale. Prima di poter eseguire il training di una voce neurale devi inviare una registrazione della dichiarazione di consenso del talento vocale. La dichiarazione del talento vocale è una registrazione del talento vocale che legge una dichiarazione dove acconsente all'utilizzo dei dati vocali per eseguire il training di un modello vocale personalizzato.
- Prepara i dati di training nel formato corretto. È consigliabile acquisire le registrazioni audio in uno studio di registrazione di qualità professionale per ottenere un rapporto segnale-rumore elevato. La qualità del modello vocale dipende in gran parte dai dati di training. È necessaria coerenza di volume, velocità di pronuncia, intonazione e modi espressivi del parlato.
- Esegui il training del modello vocale. Seleziona almeno 300 espressioni per creare una voce neurale personalizzata. Quando le carichi, vengono eseguiti automaticamente una serie di controlli di qualità dei dati. Per creare modelli vocali di alta qualità è necessario correggere eventuali errori e re inviare il tutto.
- Testa la voce. Prepara gli script di prova per il modello vocale in modo che coprano i diversi casi d'uso per le app. È consigliabile usare script all'interno e all'esterno del set di dati di training in modo da poter testare la qualità in modo più ampio per contenuti diversi.
- Implementa e usa il modello vocale nelle app.
Puoi ottimizzare, regolare e usare la voce personalizzata in modo simile a come useresti una voce neurale predefinita. Converti il testo in parlato in tempo reale o genera contenuti audio offline con input di testo. Usare l'API REST, l'SDK Voce o Speech Studio.
Suggerimento
Per informazioni su come usare la sintesi vocale neurale nell'applicazione, consultare gli esempi di codice nel repository SDK Voce in GitHub.
Lo stile e le caratteristiche del modello vocale sottoposto a training dipendono dallo stile e dalla qualità delle registrazioni del talento vocale usato per il training. Tuttavia, puoi apportare diverse modifiche usando SSML (Speech Synthesis Markup Language) quando effettui chiamate API al modello vocale per generare la voce sintetica. SSML è il linguaggio di markup usato per comunicare con il servizio di sintesi vocale e convertire il testo in audio. Le rettifiche che è possibile apportare includono modifiche di altezza, velocità, intonazione e correzione della pronuncia. Se il modello vocale viene compilato con più stili, puoi usare SSML anche per cambiare stile.
Sequenza componenti
La Sintesi vocale neurale è costituita da tre componenti principali: l'analizzatore del testo, il modello acustico neurale e il vocoder neurale. Per generare una sintesi vocale naturale dal testo, inserisci il testo nell'analizzatore del testo, che fornisce output sotto forma di sequenza di fonemi. Un fonema è un'unità di base del suono che distingue una parola da un'altra in una particolare lingua. Una sequenza di fonemi definisce la pronuncia delle parole fornite nel testo.
Successivamente, la sequenza di fonemi entra nel modello acustico neurale per prevedere le caratteristiche acustiche che definiscono i segnali vocali. Le caratteristiche acustiche includono il timbro, lo stile di pronuncia, la velocità, l’intonazione e i modelli di accento. Infine, il vocoder neurale converte le caratteristiche acustiche in onde udibili, in modo che venga generato il parlato sintetico.
Il training dei modelli di sintesi vocale avviene usando reti neurali profonde in base ai campioni di registrazione delle voci umane. Per altre informazioni, vedi questo post di blog di Microsoft. Per altre informazioni su come viene eseguito il training di un vocoder neurale, vedi questo post di blog di Microsoft.
Intelligenza artificiale responsabile
Un sistema di intelligenza artificiale include non solo la tecnologia ma anche le persone che ne fanno uso, le persone interessate e l'ambiente di distribuzione. Leggere le note sulla trasparenza per informazioni sull'uso e sulla distribuzione di intelligenza artificiale responsabile nei sistemi.
- Nota sulla trasparenza e casi d'uso di Sintesi vocale neurale
- Caratteristiche e limitazioni per l'uso di Sintesi vocale neurale
- Accesso limitato a Sintesi vocale neurale
- Linee guida per la distribuzione responsabile della tecnologia di voce sintetica
- Informativa per i talenti vocali
- Linee guida sulla progettazione di informative
- Modelli di progettazione di informative
- Codice di comportamento per le integrazioni di sintesi vocale
- Dati, privacy e sicurezza per Sintesi vocale neurale