Sintesi vocale con lo strumento Di creazione di contenuti audio

È possibile usare lo strumento Creazione contenuto audio in Speech Studio per la sintesi vocale senza scrivere codice. È possibile usare l'audio di output così come è o come punto di partenza per un'ulteriore personalizzazione.

Creare contenuti audio altamente naturali per diversi scenari, ad esempio audiobook, trasmissioni di notizie, narrazioni video e chat bot. Con la creazione di contenuti audio, è possibile ottimizzare in modo efficiente la sintesi vocale e progettare esperienze audio personalizzate.

Lo strumento si basa su Speech Synthesis Markup Language (SSML). Consente di regolare il testo in base agli attributi di output vocale in tempo reale o in sintesi batch, ad esempio caratteri vocali, stili vocali, velocità di pronuncia, pronuncia e prosodia.

  • Approccio senza codice: è possibile usare lo strumento Creazione contenuto audio per la sintesi vocale senza scrivere codice. L'audio di output potrebbe essere il risultato finale desiderato. Ad esempio, puoi usare l'audio di output per un podcast o una narrazione video.
  • Facile da sviluppatore: è possibile ascoltare l'audio di output e regolare SSML per migliorare la sintesi vocale. È quindi possibile usare Speech SDK o l'interfaccia della riga di comando di Speech per integrare SSML nelle applicazioni. Ad esempio, è possibile usare SSML per creare un chatbot.

È possibile accedere facilmente a un ampio portfolio di lingue e voci. Queste voci includono voci neurali predefinite state-of-the-art e la voce neurale personalizzata, se ne è stata creata una.

Per altre informazioni, vedi il video dell'esercitazione sulla creazione di contenuti audio su YouTube.

Attività iniziali

Lo strumento Creazione contenuto audio in Speech Studio è gratuito per l'accesso, ma si paga per l'utilizzo del servizio Voce. Per usare lo strumento, è necessario accedere con un account Azure e creare una risorsa Voce. Per ogni account Azure sono disponibili quote di riconoscimento vocale mensili gratuite, che includono 0,5 milioni di caratteri per le voci neurali predefinite (denominate Neural nella pagina dei prezzi). In genere, l'importo mensile assegnato è sufficiente per un piccolo team di contenuti di circa 3-5 persone.

Le sezioni successive illustrano come creare un account Azure e ottenere una risorsa Voce.

Passaggio 1: Creare un account Azure

Per usare la creazione di contenuti audio, sono necessari un account Microsoft e un account Azure.

Il portale di Azure è la posizione centralizzata in cui gestire l'account Azure. È possibile creare la risorsa Voce, gestire l'accesso al prodotto e monitorare tutto, dalle semplici app Web alle distribuzioni cloud complesse.

Passaggio 2: Creare una risorsa voce

Dopo aver effettuato l'iscrizione per l'account Azure, è necessario creare una risorsa Voce nell'account Azure per accedere ai servizi Voce. Creare una risorsa Voce nel portale di Azure. Per altre informazioni, vedere Creare una risorsa multiservizio.

È necessario qualche secondo per distribuire la nuova risorsa del servizio Voce. Al termine della distribuzione, è possibile iniziare a usare lo strumento Creazione contenuto audio.

Nota

Se si prevede di usare le voci neurali, assicurarsi di creare la risorsa in un'area che supporta le voci neurali.

Passaggio 3: Accedere alla creazione di contenuti audio con l'account Azure e la risorsa Voce

  1. Dopo aver visualizzato l'account Azure e la risorsa Voce, accedere a Speech Studio e quindi selezionare Creazione contenuto audio.

  2. Selezionare la sottoscrizione di Azure e la risorsa Voce da usare e quindi selezionare Usa risorsa.

    La volta successiva che si accede a Creazione contenuto audio, si viene collegati direttamente ai file di lavoro audio nella risorsa voce corrente. È possibile controllare i dettagli e lo stato della sottoscrizione di Azure nel portale di Azure.

    Se non si dispone di una risorsa voce disponibile e si è il proprietario o l'amministratore di una sottoscrizione di Azure, è possibile creare una risorsa Voce in Speech Studio selezionando Crea una nuova risorsa.

    Se si ha un ruolo utente per una determinata sottoscrizione di Azure, è possibile che non si disponga delle autorizzazioni per creare una nuova risorsa voce. Contatta l'amministratore per ottenere l'accesso.

    Per cambiare la risorsa Voce in qualsiasi momento, selezionare Impostazioni nella parte superiore della pagina.

    Per cambiare directory, selezionare Impostazioni o passare al profilo.

Usare lo strumento

Il diagramma seguente mostra il processo di ottimizzazione degli output di Sintesi vocale.

Diagram of the sequence of steps for fine-tuning text to speech outputs.

Ogni passaggio del diagramma precedente è descritto di seguito:

  1. Scegliere la risorsa Voce da usare.

  2. Creare un file di ottimizzazione audio usando script di testo normale o SSML. Immettere o caricare il contenuto nella creazione di contenuti audio.

  3. Scegliere la voce e la lingua per il contenuto dello script. La creazione di contenuti audio include tutto il testo predefinito per le voci vocali. È possibile usare voci neurali predefinite o una voce neurale personalizzata.

    Nota

    L'accesso gestito è disponibile per la voce neurale personalizzata, che consente di creare voci ad alta definizione simili al parlato naturale. Per altre informazioni, vedere Gating process .For more information, see Gating process.

  4. Selezionare il contenuto da visualizzare in anteprima e quindi selezionare Riproduci (icona a forma di triangolo) per visualizzare in anteprima l'output di sintesi predefinito.

    Se si apportano modifiche al testo, selezionare l'icona Arresta e quindi selezionare di nuovo Riproduci per rigenerare l'audio con script modificati.

    Migliorare l'output regolando pronuncia, break, pitch, rate, intonation, voice style e altro ancora. Per un elenco completo delle opzioni, vedere Speech Synthesis Markup Language.

    Per altre informazioni sull'ottimizzazione dell'output vocale, vedere il video How to convert Text to speech using Microsoft Azure AI voices (Come convertire il testo in voce con intelligenza artificiale di Microsoft Azure).

  5. Salvare ed esportare l'audio ottimizzato.

    Quando si salva la traccia di ottimizzazione nel sistema, è possibile continuare a funzionare ed eseguire l'iterazione sull'output. Quando si è soddisfatti dell'output, è possibile creare un'attività di creazione audio con la funzionalità di esportazione. È possibile osservare lo stato dell'attività di esportazione e scaricare l'output da usare con le app e i prodotti.

Creare un file di ottimizzazione audio

È possibile ottenere il contenuto nello strumento Creazione contenuto audio in uno dei due modi seguenti:

  • Opzione 1

    1. Selezionare Nuovo>file di testo per creare un nuovo file di ottimizzazione audio.

    2. Immettere o incollare il contenuto nella finestra di modifica. Il numero consentito di caratteri per ogni file è di 20.000 o meno. Se lo script contiene più di 20.000 caratteri, è possibile usare l'opzione 2 per suddividere automaticamente il contenuto in più file.

    3. Seleziona Salva.

  • Opzione 2

    1. Selezionare Carica>file di testo per importare uno o più file di testo. Sono supportati sia testo normale che SSML.

      Se il file di script è maggiore di 20.000 caratteri, suddividere il contenuto per paragrafi, per caratteri o per espressioni regolari.

    2. Quando si caricano i file di testo, assicurarsi che soddisfino questi requisiti:

      Proprietà Descrizione
      File format Testo normale (.txt)*
      Testo SSML (.txt)**
      I file ZIP non sono supportati.
      Formato di codifica UTF-8
      File name Ogni file deve avere un nome univoco. I file duplicati non sono supportati.
      Text length Il limite di caratteri è 20.000. Se i file superano il limite, suddividerli in base alle istruzioni nello strumento.
      Restrizioni SSML Ogni file SSML può contenere solo una singola parte di SSML.

      * Esempio di testo normale:

      Welcome to use Audio Content Creation to customize audio output for your products.
      

      ** Esempio di testo SSML:

      <speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
          <voice name="en-US-AvaMultilingualNeural">
          Welcome to use Audio Content Creation <break time="10ms" />to customize audio output for your products.
          </voice>
      </speak>
      

Esportare l'audio ottimizzato

Dopo aver esaminato l'output audio e aver soddisfatto l'ottimizzazione e la regolazione, è possibile esportare l'audio.

  1. Selezionare Esporta per creare un'attività di creazione audio.

    È consigliabile esportare in libreria audio per archiviare, trovare e cercare facilmente l'output audio nel cloud. È possibile integrare meglio le applicazioni tramite l'archiviazione BLOB di Azure. È anche possibile scaricare l'audio direttamente sul disco locale.

  2. Scegliere il formato di output per l'audio ottimizzato. I formati audio supportati e le frequenze di campionamento sono elencati nella tabella seguente:

    Formatta Frequenza di campionamento di 8 kHz Frequenza di campionamento di 16 kHz Frequenza di campionamento di 24 kHz Frequenza di campionamento a 48 kHz
    wav riff-8khz-16bit-mono-pcm riff-16khz-16bit-mono-pcm riff-24khz-16bit-mono-pcm riff-48khz-16bit-mono-pcm
    mp3 N/D audio-16khz-128kbitrate-mono-mp3 audio-24khz-160kbitrate-mono-mp3 audio-48khz-192kbitrate-mono-mp3
  3. Per visualizzare lo stato dell'attività, selezionare la scheda Elenco attività.

    Se l'attività non riesce, vedere la pagina delle informazioni dettagliate per un report completo.

  4. Al termine dell'attività, l'audio è disponibile per il download nel riquadro Libreria audio.

  5. Selezionare il file da scaricare e scaricare.

    A questo punto è possibile usare l'audio ottimizzato personalizzato nelle app o nei prodotti.

Configurare l'accesso in lettura pubblico BYOS e anonimo per i BLOB

Se si perde l'autorizzazione di accesso per l'Archiviazione Bring Your Own (BYOS), non è possibile visualizzare, creare, modificare o eliminare file. Per riprendere l'accesso, è necessario rimuovere l'archiviazione corrente e riconfigurare byos nell'portale di Azure. Per altre informazioni su come configurare BYOS, vedere Montare Archiviazione di Azure come condivisione locale in servizio app.

Dopo aver configurato l'autorizzazione BYOS, è necessario configurare l'accesso in lettura pubblico anonimo per contenitori e BLOB correlati. In caso contrario, i dati BLOB non sono disponibili per l'accesso pubblico e il file lessico nel BLOB non è accessibile. Per impostazione predefinita, l'impostazione di accesso pubblico di un contenitore è disabilitata. Per concedere agli utenti anonimi l'accesso in lettura a un contenitore e ai relativi BLOB, impostare innanzitutto Consenti l'accesso pubblico blob su Abilitato per consentire l'accesso pubblico per l'account di archiviazione, quindi impostare il livello di accesso pubblico (denominato acc-public-files) del contenitore (accesso in lettura anonimo solo per i BLOB). Per altre informazioni su come configurare l'accesso in lettura pubblico anonimo, vedere Configurare l'accesso in lettura pubblico anonimo per contenitori e BLOB.

Aggiungere o rimuovere utenti per la creazione di contenuti audio

Se più utenti vogliono usare la creazione di contenuti audio, è possibile concedere loro l'accesso alla sottoscrizione di Azure e alla risorsa Voce. Se si aggiungono utenti a una sottoscrizione di Azure, possono accedere a tutte le risorse nella sottoscrizione di Azure. Tuttavia, se si aggiungono utenti solo a una risorsa Voce, hanno accesso solo alla risorsa Voce e non ad altre risorse in questa sottoscrizione di Azure. Gli utenti con accesso alla risorsa Voce possono usare lo strumento Creazione contenuto audio.

Gli utenti a cui si concede l'accesso devono configurare un account Microsoft. Se hanno un account Microsoft, possono crearne uno in pochi minuti. Possono usare la posta elettronica esistente e collegarla a un account Microsoft oppure possono creare e usare un indirizzo di posta elettronica di Outlook come account Microsoft.

Aggiungere utenti a una risorsa Voce

Per aggiungere utenti a una risorsa Voce in modo che possano usare la creazione di contenuti audio, eseguire le operazioni seguenti:

  1. Nel portale di Azure selezionare Tutti i servizi.
  2. Selezionare quindi i servizi di intelligenza artificiale di Azure e passare alla risorsa voce specifica.

    Nota

    È anche possibile configurare il controllo degli accessi in base al ruolo di Azure per gruppi di risorse, sottoscrizioni o gruppi di gestione interi. A tale scopo, selezionare il livello di ambito desiderato e quindi passare all'elemento desiderato, ad esempio selezionando Gruppi di risorse e quindi facendo clic sul gruppo di risorse desiderato.

  3. Selezionare Controllo di accesso (IAM) nel riquadro di spostamento a sinistra.
  4. Selezionare Aggiungi ->Aggiungi assegnazione di ruolo.
  5. Nella scheda Ruolo nella schermata successiva selezionare un ruolo da aggiungere (in questo caso Proprietario).
  6. Nella scheda Membri immettere l'indirizzo di posta elettronica di un utente e selezionare il nome dell'utente nella directory. L'indirizzo di posta elettronica deve essere collegato a un account Microsoft considerato attendibile dall'ID Microsoft Entra. Gli utenti possono iscriversi facilmente per ottenere un account Microsoft usando il proprio indirizzo di posta elettronica personale.
  7. Nella scheda Rivedi e assegna selezionare Rivedi e assegna per assegnare il ruolo.

Ecco cosa accade di seguito:

Un invito tramite posta elettronica viene inviato automaticamente agli utenti. Possono accettarlo selezionando Accetta invito>Accetta per partecipare ad Azure tramite posta elettronica. Vengono quindi reindirizzati al portale di Azure. Non è necessario intervenire ulteriormente nell'portale di Azure. Dopo alcuni istanti, agli utenti viene assegnato il ruolo nell'ambito della risorsa Voce, che consente loro di accedere a questa risorsa Voce. Se gli utenti non ricevono il messaggio di posta elettronica di invito, è possibile cercare il proprio account in Assegnazioni di ruolo e accedere al proprio profilo. Cercare Identity Invitation accepted (Invito all'identità>accettato) e selezionare (gestisci) per inviare nuovamente l'invito tramite posta elettronica. È anche possibile copiare e inviare il collegamento di invito.

Gli utenti ora visitano o aggiornano la pagina del prodotto Creazione contenuto audio e accedono con il proprio account Microsoft. Selezionano il blocco Creazione contenuto audio tra tutti i prodotti voce. Scelgono la risorsa Voce nella finestra popup o nelle impostazioni in alto a destra.

Se non riesce a trovare la risorsa voce disponibile, può verificare che si trovi nella directory corretta. A tale scopo, selezionano il profilo dell'account in alto a destra e quindi seleziona Passa accanto a Directory corrente. Se sono disponibili più directory, significa che hanno accesso a più directory. Possono passare a directory diverse e passare a Impostazioni per verificare se la risorsa voce corretta è disponibile.

Gli utenti che si trovano nella stessa risorsa Voce vedono il lavoro degli altri nello strumento Creazione contenuto audio. Se si vuole che ogni singolo utente abbia un luogo di lavoro univoco e privato nella creazione di contenuti audio, creare una nuova risorsa voce per ogni utente e concedere a ogni utente l'accesso univoco alla risorsa Voce.

Rimuovere gli utenti da una risorsa Voce

  1. Cercare i servizi di intelligenza artificiale di Azure nella portale di Azure, selezionare la risorsa Voce da cui si vogliono rimuovere gli utenti.

  2. Selezionare Controllo di accesso (IAM) e quindi selezionare la scheda Assegnazioni di ruolo per visualizzare tutte le assegnazioni di ruolo per questa risorsa Voce.

  3. Selezionare gli utenti da rimuovere, selezionare Rimuovi e quindi ok.

    Screenshot of the 'Remove' button on the 'Remove role assignments' pane.

Consentire agli utenti di concedere l'accesso ad altri utenti

Se si vuole consentire a un utente di concedere l'accesso ad altri utenti, è necessario assegnare loro il ruolo di proprietario per la risorsa Voce e impostare l'utente come lettore di directory di Azure.

  1. Aggiungere l'utente come proprietario della risorsa Voce. Per altre informazioni, vedere Aggiungere utenti a una risorsa Voce.

    Screenshot showing the 'Owner' role on the 'Add role assignment' pane.

  2. Nella portale di Azure selezionare il menu compresso in alto a sinistra, selezionare Microsoft Entra ID e quindi utenti.

  3. Cercare l'account Microsoft dell'utente, passare alla pagina dei dettagli e quindi selezionare Ruoli assegnati.

  4. Selezionare Aggiungi assegnazioni>Lettori directory. Se il pulsante Aggiungi assegnazioni non è disponibile, significa che non si ha accesso. Solo l'amministratore globale di questa directory può aggiungere assegnazioni agli utenti.

Passaggi successivi