Che cos’è la voce neurale personalizzata per la sintesi vocale?

Articolo
09/20/2024

Con la voce neurale personale, è possibile consentire agli utenti di ottenere una replica generata dall'IA delle loro voci in pochi secondi. Con una dichiarazione verbale e un breve comando vocale di esempio, come una richiesta audio, è possibile creare una voce personale per gli utenti e consentire loro di generare un comando vocale in una delle oltre 90 lingue supportate in più di 100 impostazioni locali.

Nota

La voce personale è disponibile in queste aree: Europa occidentale, Stati Uniti orientali e Asia sud-orientale. Per le impostazioni locali supportate, consultare supporto linguistico per la voce personale.

La seguente tabella riepiloga le differenze tra la voce personale e la voce neurale personalizzata professionale.

Confronto	Voce neurale personalizzata	Voce professionale
Scenari di destinazione	Clienti aziendali che desiderano creare un'app che consenta agli utenti di creare e usare la propria voce personale nell'app.	Scenari professionali, come voci di marchio o di personaggi per chatbot, o lettura di contenuti audio.
Utilizzare casi	Riservato a casi d'uso limitati. Consultare la nota sulla trasparenza. I clienti approvati devono avere un piano che possa supportare più di 1.000 voci personali.	Riservato a casi d'uso limitati. Consultare la nota sulla trasparenza.
Dati di training	Assicurarsi di rispettare il codice di comportamento.	Usare i propri dati. È consigliabile registrare in uno studio professionale.
Dimensioni dei dati necessarie	Un minuto di parlato umano.	300-2000 espressioni (circa 30 minuti e 3 ore di parlato umano).
Tempo di addestramento	Meno di 5 secondi	Circa 20-40 ore di calcolo.
Qualità della voce	Natural	Altamente naturale
Supporto multilingue	Sì. La voce è in grado di parlare circa 100 lingue, con il rilevamento automatico della lingua abilitato.	Sì. È necessario selezionare la funzionalità "Neurale – più lingue" per eseguire il training di un modello che parli una lingua diversa da quella dei dati di training.
Disponibilità	La demo in Speech Studio è disponibile previa registrazione. L'accesso all'API è limitato ai clienti idonei e ai casi d'uso approvati. Richiedere l'accesso tramite il modulo di accettazione.	È possibile eseguire il training e distribuire un modello CNV Pro solo dopo che l’accesso è stato approvato. L'accesso a CNV Pro è limitato in base ai criteri di idoneità e utilizzo. Richiedere l'accesso tramite il modulo di accettazione.
Prezzi	Controllare i dettagli dei prezzi qui¹.	Consultare i dettagli dei prezzi qui.
Requisiti di IA responsabili	È necessaria una dichiarazione verbale da parte del parlante. Non sono consentiti casi d'uso non approvati.	È necessaria una dichiarazione verbale da parte del parlante. Non sono consentiti casi d'uso non approvati.

¹ Si noti che i prezzi della voce neurale personalizzata saranno visibili solo per le aree del servizio in cui è disponibile la funzionalità, tra cui Europa occidentale, Stati Uniti orientali e Asia sud-orientale.

Provare la demo

Se si dispone di una risorsa S0, è possibile accedere alla demo della voce neurale personalizzata in Speech Studio. Per usare l'API della voce neurale personalizzata, è possibile richiedere l'accesso qui.

Passare a Speech Studio
Selezionare la scheda Voce personale.
È possibile registrare la propria voce e provare gli esempi di output vocale in diverse lingue. La demo include un subset delle lingue supportate dalla voce personale.

Come creare una voce personale

Per iniziare, ecco un riepilogo dei passaggi per creare una voce personale:

Creare un progetto.
Caricare il file di consenso. Per la funzionalità voce personale, è necessario che ogni voce venga creata con il consenso esplicito dell'utente. È necessaria una dichiarazione registrata da parte dell’utente nella quale si dichiari di consapevole che il cliente (proprietario della risorsa Voce di Azure AI) creerà e userà la sua voce.
Ottenere un ID profilo del parlante per la voce personale. Si ottiene un ID profilo del parlante in base alla sua dichiarazione di consenso verbale e a una richiesta audio. Le caratteristiche vocali dell'utente vengono codificate nella proprietà speakerProfileId usata per la sintesi vocale.

Dopo aver creato una voce personale, è possibile usarla per sintetizzare il parlato in una delle 91 lingue supportate in più di 100 impostazioni locali. Non è necessario un tag delle impostazioni locali. La voce personale usa il rilevamento automatico della lingua a livello di frase. Per ulteriori informazioni, consultare Usare la voce personale nell'applicazione.

Suggerimento

Per informazioni su come usare la voce personale nell'applicazione, consultare gli esempi di codice nel repository Speech SDK in GitHub .

Documentazione di riferimento

Documentazione di riferimento dell'API REST di Voce personalizzata

Intelligenza artificiale responsabile

Abbiamo a cuore gli interessi delle persone che usano l’intelligenza artificiale quanto abbiamo a cuore la tecnologia. Per ulteriori informazioni, consultare le note sulla trasparenza dell'IA responsabile.

Passaggi successivi

Creare un progetto.
Ulteriori informazioni sulla voce neurale personalizzata sono disponibili nella panoramica.
Altre informazioni su Speech Studio sono disponibili nella panoramica.

Condividi tramite