Come creare un avatar personalizzato per la sintesi vocale

2025-05-20

Iniziare a usare un avatar personalizzato per la sintesi vocale è un processo semplice. Tutto ciò che serve sono alcuni video clip del tuo attore. Se vuoi eseguire il training di una voce personalizzata per lo stesso attore, puoi farlo separatamente.

Annotazioni

L'accesso avatar personalizzato è limitato in base ai criteri di idoneità e utilizzo. È necessario richiedere l'accesso tramite il modulo di accettazione.

Prerequisiti

È necessaria una risorsa Azure AI Foundry in una delle aree che supportano il training avatar personalizzato. Avatar personalizzato supporta solo risorse Standard (S0) di Fonderia AI o Servizio cognitivo di Azure per la voce.

È necessaria una registrazione video del talento che legge una dichiarazione di consenso che riconosce l'uso dell'immagine e della voce. Caricare questo video quando si configura il talento avatar. Per altre informazioni, vedere Aggiungere il consenso dei talenti avatar.

Hai bisogno di registrazioni video del tuo talento avatar come dati di training. Questi video vengono caricati quando si preparano i dati di training. Per altre informazioni, vedere Aggiungere dati di training.

Passaggio 1: Avviare l'ottimizzazione

Suggerimento

Non combinare dati per avatar diversi in un'area di lavoro di ottimizzazione. Ogni avatar deve avere una propria area di lavoro di ottimizzazione.

Per ottimizzare un avatar personalizzato, seguire questa procedura:

Passa al tuo progetto Azure AI Foundry nel portale di Azure AI Foundry. Se è necessario creare un progetto, vedere Creare un progetto Azure AI Foundry.
Selezionare Ottimizzazione nel riquadro sinistro.
Selezionare Ottimizzazione del servizio AI>+ Ottimizza.
Nella procedura guidata selezionare Avatar personalizzato (fine-tuning avatar di sintesi vocale).
Selezionare Avanti.
Seguire le istruzioni fornite dalla procedura guidata per creare l'area di lavoro di ottimizzazione.

Un talento avatar è un individuo o attore target del quale viene registrato un video parlato che viene usato per creare modelli di avatar neurali. È necessario ottenere consenso sufficiente ai sensi di tutte le leggi e normative pertinenti da parte del talento avatar per poter usare il suo video per creare l’avatar di sintesi vocale.

È necessario fornire un file video con una dichiarazione registrata dal talento avatar, nella quale acconsenta all’uso della sua immagine e voce. Microsoft verifica che il contenuto nella registrazione corrisponda allo script predefinito fornito da Microsoft. Microsoft confronta il volto del talento avatar nel file video contenente la registrazione della dichiarazione con video scelti casualmente dai set di dati di training per accertarsi che il talento avatar in tali video e quello nel file video contenente la dichiarazione siano della stessa persona.

Se desideri creare una sincronizzazione vocale per l'avatar durante l'addestramento dell'avatar, viene creata una voce personalizzata simile alla voce del tuo avatar accanto all'avatar personalizzato. La voce viene usata esclusivamente con l'avatar specificato. L'istruzione di consenso deve includere sia l'avatar personalizzato che la sincronizzazione vocale per avatar. Per un esempio dell'istruzione di consenso per avatar personalizzato con sincronizzazione vocale, vedere il fileverbal-statement-voice-sync-for-avatar-all-locales.txt nel repository GitHub Azure-Samples/cognitive-services-speech-sdk .
Se non crei una sincronizzazione vocale per l'avatar, viene addestrato solo l'avatar personalizzato e la dichiarazione di consenso deve riflettere questo scopo. Per un esempio dell'istruzione di consenso solo per avatar personalizzato, vedere il fileverbal-statement-all-locales.txt nel repository GitHub Azure-Samples/cognitive-services-speech-sdk .

Per altre informazioni sulla registrazione del video di consenso, vedere il Come registrare video campioni e Informativa per il talento avatar.

Per aggiungere un profilo di talento avatar e caricare la dichiarazione di consenso nel progetto, seguire questa procedura:

Accedere al portale di Azure AI Foundry.
Selezionare Ottimizzazione nel riquadro sinistro e quindi selezionare Ottimizzazione dei servizi di intelligenza artificiale.
Selezionare l'attività di ottimizzazione dell'avatar personalizzata (in base al nome del modello) avviata come descritto nella sezione precedente.
Selezionare Configura avatar talent>Upload consent video (Carica video di consenso).
Nella pagina Carica video di consenso, seguire le istruzioni per caricare il video di consenso dei talenti avatar registrato in anticipo.
- Selezionare il tipo di avatar da compilare. Crea una sincronizzazione vocale per l'avatar che suona come le abilità del tuo avatar insieme al modello di avatar, oppure crea un avatar senza sincronizzazione vocale. L'opzione per creare una sincronizzazione vocale per avatar è disponibile solo nelle aree Asia sud-orientale, Europa occidentale e Stati Uniti occidentali 2.
- Selezionare la lingua parlante dell'istruzione di consenso verbale registrata dal talento avatar.
- Immettere il nome del talento avatar e il nome della società nella stessa lingua dell'istruzione registrata.
  - Il nome del talento avatar deve essere il nome della persona che ha registrato l'istruzione di consenso.
  - Il nome della società deve corrispondere al nome della società pronunciato nella dichiarazione registrata.
- È possibile scegliere di caricare i dati dai file locali o da un archivio condiviso con BLOB di Azure.
Selezionare i file locali dal computer o immettere l'URL di archiviazione BLOB di Azure in cui sono archiviati i dati.
Selezionare Avanti.
Esaminare i dettagli del caricamento e selezionare Carica.

Dopo che il caricamento del consenso del talento avatar ha esito positivo, è possibile procedere con il training del modello avatar personalizzato.

Passaggio 3: Aggiungere dati di training

Il servizio Voce usa i dati di training per creare un avatar univoco ottimizzato in modo che corrisponda all'aspetto della persona nelle registrazioni. Dopo aver eseguito il training del modello avatar, è possibile iniziare a sintetizzare i video avatar o usarlo per le chat live nelle applicazioni.

Tutti i dati caricati devono soddisfare i requisiti del tipo di dati scelto. Per garantire che il servizio Voce elabori in modo accurato i dati, è importante formattare correttamente i dati prima del caricamento. Per verificare che i dati siano formattati correttamente, vedere Requisiti deidati.

Caricare i dati

Quando si è pronti per caricare i dati, passare alla scheda Preparare i dati di training per aggiungere i dati.

Per caricare i dati di training, seguire questa procedura:

Accedere al portale di Azure AI Foundry.
Selezionare Ottimizzazione nel riquadro sinistro e quindi selezionare Ottimizzazione dei servizi di intelligenza artificiale.
Selezionare l'attività di ottimizzazione dell'avatar personalizzata (in base al nome del modello) avviata come descritto nella sezione precedente.
Seleziona Preparare i dati di training>Carica dati.
Nella procedura guidata Carica dati, scegliere un tipo di dati e quindi selezionare Avanti. Per ulteriori informazioni sui tipi di dati (tra cui Naturally Speaking, Silent Status, Gesture e Status 0 parlante), consulta quali clip video registrare.
Selezionare i file locali dal computer o immettere l'URL di archiviazione BLOB di Azure in cui sono archiviati i dati.
Selezionare Avanti.
Esaminare i dettagli del caricamento e selezionare Carica.

I file di dati vengono convalidati automaticamente quando si seleziona Carica. La convalida dei dati include una serie di controlli sui file video per verificare il formato del file, le dimensioni e il volume totale. In caso di errori, correggerli e inviarli di nuovo.

Dopo aver caricato i dati, è possibile controllare la panoramica dei dati che indica se sono stati forniti dati sufficienti per avviare il training.

Passaggio 4: Eseguire il training del modello avatar

Importante

Tutti i dati di training nel progetto sono inclusi nel training. La qualità del modello dipende altamente dai dati forniti e si è responsabili della qualità del video. Assicurarsi di registrare i video di training in base alla guida alla registrazione di campioni video.

Per creare un avatar personalizzato nel portale di Azure AI Foundry, seguire questa procedura per uno dei metodi seguenti:

Accedere al portale di Azure AI Foundry.
Selezionare Ottimizzazione nel riquadro sinistro e quindi selezionare Ottimizzazione dei servizi di intelligenza artificiale.
Selezionare l'attività di ottimizzazione dell'avatar personalizzata (in base al nome del modello) avviata come descritto nella sezione precedente.
Selezionare Esegui training modello>+ Training modello.
Immettere un Nome per identificare il modello. Scegliere un nome con attenzione. Il nome del modello viene usato come nome avatar nella richiesta di sintesi dall'SDK e dall'input SSML. Sono consentite solo lettere, numeri, trattini e caratteri di sottolineatura. Usare un nome univoco per ogni modello.

Importante

Il nome del modello avatar deve essere univoco all'interno della stessa risorsa di Servizi voce o intelligenza artificiale.
Selezionare Esegui training per avviare il training del modello.

La durata del training varia a seconda della quantità di dati usata. In genere sono necessarie 20-40 ore di calcolo in media per eseguire il training di un avatar personalizzato. Controllare la nota sui prezzi su come viene addebitato il training.

Copiare il modello avatar personalizzato in un altro progetto (facoltativo)

Il training dell'avatar personalizzato è attualmente disponibile solo in alcune aree. Dopo aver eseguito il training del modello avatar in un'area supportata, è possibile copiarlo in una risorsa di Servizi di intelligenza artificiale per Riconoscimento vocale in un'altra area in base alle esigenze. Per altre informazioni, vedere note a piè di pagina nella tabella delle aree.

Annotazioni

È possibile copiare la sincronizzazione vocale solo per il modello avatar nelle aree che supportano la sincronizzazione vocale per la funzionalità avatar, che sono le stesse aree che supportano la voce personale.

Per copiare il modello avatar personalizzato in un altro progetto:

Nella scheda Esegui training modello, selezionare un modello avatar che si vuole copiare e quindi selezionare Copia nel progetto.
Selezionare la sottoscrizione, l'area geografica, la risorsa servizi di intelligenza artificiale per Voce e il progetto in cui si vuole copiare il modello. È necessario disporre di una risorsa di Servizi di intelligenza artificiale per Voce e progetto nell'area di destinazione. In caso contrario, è prima necessario crearli.
Selezionare Invia per copiare il modello.

Dopo aver copiato il modello, viene visualizzata una notifica nel portale di Azure AI Foundry.

Passare al progetto in cui è stato copiato il modello per distribuire la copia del modello.

Passaggio 5: Distribuire e usare il modello avatar

Dopo aver creato ed eseguito il training del modello avatar, è possibile distribuirlo nell'endpoint.

Per distribuire l'avatar:

Accedere al portale di Azure AI Foundry.
Selezionare Ottimizzazione nel riquadro sinistro e quindi selezionare Ottimizzazione dei servizi di intelligenza artificiale.
Selezionare l'attività di ottimizzazione dell'avatar personalizzata (in base al nome del modello) avviata come descritto nella sezione precedente.
Selezionare Distribuisci modello>Distribuisci modello.
Selezionare un modello da distribuire.
Selezionare Distribuisci per avviare la distribuzione.

Importante

Quando viene distribuito un modello, si paga per il tempo di up continuo dell'endpoint indipendentemente dall'interazione con tale endpoint. Controllare la nota sui prezzi sulla modalità di addebito della distribuzione del modello. È possibile eliminare una distribuzione quando il modello non è in uso per ridurre la spesa e risparmiare risorse.

Dopo aver distribuito l'avatar personalizzato, è disponibile per l'uso nel portale di Azure AI Foundry o tramite l'API:

L'avatar viene visualizzato nell'elenco avatar di sintesi vocale nel portale Fonderia Azure AI.
L'avatar viene visualizzato nell'elenco avatar degli avatar di chat live tramite il portale di Azure AI Foundry.
È possibile chiamare l'avatar dall'input SDK e SSML specificando il nome del modello avatar. Per altre informazioni, vedere le proprietà dell'avatar.

Rimuovere una distribuzione

Per rimuovere la distribuzione, seguire questa procedura:

Accedere al portale di Azure AI Foundry.
Selezionare Ottimizzazione nel riquadro sinistro e quindi selezionare Ottimizzazione dei servizi di intelligenza artificiale.
Selezionare l'attività di ottimizzazione dell'avatar personalizzata (in base al nome del modello) avviata come descritto nella sezione precedente.
Selezionare la distribuzione nella pagina Distribuisci modello. Il modello è ospitato attivamente se lo stato è "Completato con successo".
È possibile selezionare il pulsante Elimina distribuzione e confermare l'eliminazione per rimuovere l'hosting.

Suggerimento

Una volta rimossa una distribuzione, non si paga più per il relativo hosting. L'eliminazione di una distribuzione non causa alcuna eliminazione del modello. Se si vuole usare di nuovo il modello, creare una nuova distribuzione.

Annotazioni

L'accesso avatar personalizzato è limitato in base ai criteri di idoneità e utilizzo. È necessario richiedere l'accesso tramite il modulo di accettazione.

Prerequisiti

Passaggio 1: Creare un progetto avatar personalizzato

Per creare un progetto avatar personalizzato, seguire questa procedura:

Accedere a Speech Studio e selezionare la sottoscrizione e la risorsa Voce.
Selezionare Avatar personalizzato (anteprima).
Selezionare +Crea un progetto.
Seguire le istruzioni fornite dalla procedura guidata per creare il progetto.

Suggerimento

Non combinare dati per avatar diversi in un progetto. Crea sempre un nuovo progetto per un nuovo avatar.
Selezionare il nuovo progetto in base al nome. Queste voci di menu vengono quindi visualizzate nel pannello sinistro: Configurare i talenti avatar, Preparare i dati di training, Eseguire il training del modello e Distribuire il modello.

Se desideri creare una sincronizzazione vocale per l'avatar durante l'addestramento dell'avatar, viene creata una voce personalizzata simile alla voce del tuo avatar accanto all'avatar personalizzato. La voce viene usata esclusivamente con l'avatar specificato. L'istruzione di consenso deve includere sia l'avatar personalizzato che la sincronizzazione vocale per avatar.
Se non crei una sincronizzazione vocale per l'avatar, viene addestrato solo l'avatar personalizzato e la dichiarazione di consenso deve riflettere questo scopo.

È possibile trovare l'istruzione di consenso verbale in più lingue tramite il repository GitHub Azure-Samples/cognitive-services-speech-sdk . La lingua della dichiarazione verbale deve essere la stessa della registrazione. Consultare anche l’informativa per talento vocale.

Per altre informazioni sulla registrazione del video di consenso, vedere Come registrare campioni video.

Per aggiungere un profilo di talento avatar e caricare la dichiarazione di consenso nel progetto, seguire questa procedura:

Accedere a Speech Studio.
Selezionare Avatar personalizzato> Il nome del progetto >Configurare il talento avatar>Caricare il video di consenso.
Nella pagina Carica video di consenso, seguire le istruzioni per caricare il video di consenso dei talenti avatar registrato in anticipo.
- Selezionare il tipo di avatar da compilare. Crea una sincronizzazione vocale per l'avatar che suona come le abilità del tuo avatar insieme al modello di avatar, oppure crea un avatar senza sincronizzazione vocale. L'opzione per creare una sincronizzazione vocale per avatar è disponibile solo nelle aree Asia sud-orientale, Europa occidentale e Stati Uniti occidentali 2.
- Selezionare la lingua parlante dell'istruzione di consenso verbale registrata dal talento avatar.
- Immettere il nome del talento avatar e il nome della società nella stessa lingua dell'istruzione registrata.
  - Il nome del talento avatar deve essere il nome della persona che ha registrato l'istruzione di consenso.
  - Il nome della società deve corrispondere al nome della società pronunciato nella dichiarazione registrata.
- È possibile scegliere di caricare i dati dai file locali o da un archivio condiviso con BLOB di Azure.
Selezionare Carica.

Dopo che il caricamento del consenso del talento avatar ha esito positivo, è possibile procedere con il training del modello avatar personalizzato.

Passaggio 3: Aggiungere dati di training

Caricare i dati

Quando si è pronti per caricare i dati, passare alla scheda Preparare i dati di training per aggiungere i dati.

Per caricare i dati di training, seguire questa procedura:

Accedere a Speech Studio.
Selezionare Avatar personalizzato> Il nome del progetto > Prepara i dati di training>Carica dati.
Nella procedura guidata Carica dati, scegliere un tipo di dati e quindi selezionare Avanti. Per altre informazioni sui tipi di dati (tra cui Discorso naturale, Silenzio, Gestie Stato 0), vedere quali clip video registrare.
Selezionare i file locali dal computer o immettere l'URL di archiviazione BLOB di Azure in cui sono archiviati i dati.
Selezionare Avanti.
Esaminare i dettagli di caricamento e selezionare Invia.

I file di dati vengono convalidati automaticamente quando si seleziona Invia. La convalida dei dati include una serie di controlli sui file video per verificare il formato del file, le dimensioni e il volume totale. In caso di errori, correggerli e inviarli di nuovo.

Dopo aver caricato i dati, è possibile controllare la panoramica dei dati che indica se sono stati forniti dati sufficienti per avviare il training. Questo screenshot mostra un esempio di dati sufficienti aggiunti per il training di un avatar senza altri movimenti.

Passaggio 4: Eseguire il training del modello avatar

Importante

Per creare un avatar personalizzato in Speech Studio, seguire questa procedura per uno dei metodi seguenti:

Accedere a Speech Studio.
Selezionare Avatar personalizzato> Il nome del progetto >Allena modello>Allena modello.
Immettere un Nome per identificare il modello. Scegliere un nome con attenzione. Il nome del modello viene usato come nome avatar nella richiesta di sintesi dall'SDK e dall'input SSML. Sono consentite solo lettere, numeri, trattini e caratteri di sottolineatura. Usare un nome univoco per ogni modello.

Importante

Il nome del modello avatar deve essere univoco all'interno della stessa risorsa di Servizi voce o intelligenza artificiale.
Selezionare Esegui training per avviare il training del modello.

Copiare il modello avatar personalizzato in un altro progetto (facoltativo)

Annotazioni

Per copiare il modello avatar personalizzato in un altro progetto:

Nella scheda Esegui training modello, selezionare un modello avatar che si vuole copiare e quindi selezionare Copia nel progetto.
Selezionare la sottoscrizione, l'area geografica, la risorsa servizi di intelligenza artificiale per Voce e il progetto in cui si vuole copiare il modello. È necessario disporre di una risorsa di Servizi di intelligenza artificiale per Voce e progetto nell'area di destinazione. In caso contrario, è prima necessario crearli.
Selezionare Invia per copiare il modello.

Dopo aver copiato il modello, viene visualizzata una notifica in Speech Studio.

Passare al progetto in cui è stato copiato il modello per distribuire la copia del modello.

Passaggio 5: Distribuire e usare il modello avatar

Dopo aver creato ed eseguito il training del modello avatar, è possibile distribuirlo nell'endpoint.

Per distribuire l'avatar:

Accedere a Speech Studio.
Selezionare Avatar personalizzato> Il nome del progetto > Distribuisci modello.
Selezionare Distribuisci modello e selezionare un modello da distribuire.
Selezionare Distribuisci per avviare la distribuzione.

Importante

Quando viene distribuito un modello, si paga per il tempo di up continuo dell'endpoint indipendentemente dall'interazione con tale endpoint. Controllare la nota sui prezzi sulla modalità di addebito della distribuzione del modello. È possibile eliminare una distribuzione quando il modello non è in uso per ridurre la spesa e risparmiare risorse.

Dopo aver distribuito l’avatar personalizzato, sarà disponibile per l’uso in Speech Studio o tramite API:

L'avatar viene visualizzato nell'elenco avatar di sintesi vocale in Speech Studio.
L'avatar viene visualizzato nell'elenco avatar degli avatar di chat live tramite Speech Studio.
È possibile chiamare l'avatar dall'input SDK e SSML specificando il nome del modello avatar. Per altre informazioni, vedere le proprietà dell'avatar.

Rimuovere una distribuzione

Per rimuovere la distribuzione, seguire questa procedura:

Accedere a Speech Studio.
Passare a Avatar personalizzato> Il nome del progetto >Distribuisci modello.
Selezionare la distribuzione nella pagina Distribuisci modello. Il modello è ospitato attivamente se lo stato è "Completato con successo".
È possibile selezionare il pulsante Elimina distribuzione e confermare l'eliminazione per rimuovere l'hosting.

Suggerimento

Condividi tramite

Come creare un avatar personalizzato per la sintesi vocale

Prerequisiti

Passaggio 1: Avviare l'ottimizzazione

Passaggio 2: Aggiungere il consenso dei talenti avatar

Passaggio 3: Aggiungere dati di training

Caricare i dati

Passaggio 4: Eseguire il training del modello avatar

Copiare il modello avatar personalizzato in un altro progetto (facoltativo)

Passaggio 5: Distribuire e usare il modello avatar

Rimuovere una distribuzione

Prerequisiti

Passaggio 1: Creare un progetto avatar personalizzato

Passaggio 2: Aggiungere il consenso dei talenti avatar

Passaggio 3: Aggiungere dati di training

Caricare i dati

Passaggio 4: Eseguire il training del modello avatar

Copiare il modello avatar personalizzato in un altro progetto (facoltativo)

Passaggio 5: Distribuire e usare il modello avatar

Rimuovere una distribuzione

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive