Condividi tramite


Sviluppo di giochi con il Servizio di Azure AI per la voce

Voce di Azure AI per la voce può essere usato per migliorare diversi scenari di gioco, sia nel gioco sia al suo esterno.

Ecco alcune funzionalità del Servizio cognitivo di Azure per la voce di cui tenere conto per creare esperienze di gioco flessibili e interattive:

  • Coinvolgere tutti nella conversazione sintetizzando dati audio dal testo o visualizzando testo dall'audio.
  • Rendere il gioco più accessibile per i giocatori che non sono in grado di leggere il testo in una determinata lingua, inclusi i più giovani che non sanno leggere e scrivere. I giocatori possono ascoltare trame e istruzioni nella propria lingua preferita.
  • Creare avatar di gioco e personaggi non giocanti (NPC, Non-Playable Character) che possono avviare una conversazione nel gioco o parteciparvi.
  • La voce standard può offrire voci altamente naturali pronte all'uso con una grande varietà in termini di un ampio portfolio di lingue e voci.
  • Voce personalizzata per la creazione di una voce che rimane on-brand con qualità coerente e stile di pronuncia. È possibile aggiungere emozioni, accenti, sfumature, risate e altre espressioni e suoni paralinguistici.
  • Usare la creazione di prototipi di dialoghi di gioco per ridurre la quantità di tempo e denaro investiti nel prodotto e introdurre il gioco più rapidamente sul mercato. È possibile scambiare rapidamente linee di dialogo e ascoltare le variazioni in tempo reale per ripetere il contenuto del gioco.

È possibile usare Speech SDK o l'interfaccia della riga di comando per Voce per ottenere riconoscimento vocale, sintesi vocale, identificazione della lingua e traduzione vocale a bassa latenza in tempo reale. È anche possibile usare l'API di trascrizione batch per trascrivere il riconoscimento vocale preregistrato. Per eseguire la sintesi vocale di un volume elevato di input di testo (lungo e breve), usare l'API di sintesi batch.

Per informazioni sulle impostazioni locali e sulla disponibilità a livello di area, vedere Supporto linguistico e vocale per il servizio Voce e Aree supportate dal servizio Voce.

Sintesi vocale

È possibile coinvolgere tutti nella conversazione convertendo messaggi di testo in audio tramite la sintesi vocale per scenari come la creazione di prototipi di dialoghi di gioco, il miglioramento dell'accessibilità o l'aggiunta di voci di personaggi non giocanti. La sintesi vocale include funzionalità voci standard e voci personalizzate. La voce standard può offrire voci altamente naturali pronte all'uso con una grande varietà in termini di un ampio portfolio di lingue e voci. La voce personalizzata è un self-service facile da usare per la creazione di una voce personalizzata altamente naturale.

Quando si abilita questa funzionalità in un gioco, i vantaggi sono i seguenti:

  • Voci e lingue supportate: è supportata una vasta gamma di impostazioni locali e voci. È anche possibile specificare più lingue per l'output della sintesi vocale. Per la voce personalizzata, è possibile scegliere di creare lingue diverse dai dati di training in una sola lingua.
  • Stili emotivi supportati: toni emotivi, ad esempio di allegria, rabbia, tristezza, emozione, fiducia, cordialità, ostilità e spavento, ad alta voce o a bassa voce. È possibile correggere lo stile del parlato, l'intensità e il ruolo a livello di frase.
  • Visemi supportati: è possibile usare visemi durante la sintesi in tempo reale per controllare le movenze dei modelli di avatar 2D e 3D, in modo che i movimenti della bocca siano perfettamente sincronizzati con la sintesi vocale. Per altre informazioni, vedere Ottenere la posizione del viso tramite visema.
  • Ottimizzazione dell'output della sintesi vocale con SSML (Speech Synthesis Markup Language): con SSML è possibile personalizzare gli output della sintesi vocale, con supporto per un'ottimizzazione vocale più ricca. Per altre informazioni, vedere Panoramica di Speech Synthesis Markup Language (SSML).
  • Uscite audio: ogni modello vocale standard è disponibile a 24 kHz e a 48 kHz ad alta fedeltà. Se si seleziona il formato di output a 48 kHz, verrà richiamato il modello vocale ad alta fedeltà con 48 kHz. È possibile ottenere frequenze di campionamento diverse da 24 kHz e 48 kHz tramite sovracampionamento o sottocampionamento durante la sintesi. Ad esempio, è possibile ottenere 44,1 kHz tramite il sottocampionamento da 48 kHz. Ogni formato audio incorpora una velocità in bit e un tipo di codifica. Per altre informazioni, vedere i formati audio supportati. Per altre informazioni sulle voci di alta qualità a 48 kHz, vedere questo blog introduttivo.

Per un esempio, vedere la guida di avvio rapido sulla sintesi vocale.

Riconoscimento vocale

È possibile usare il riconoscimento vocale per visualizzare testo dall'audio parlato nel gioco. Per un esempio, vedere la guida di avvio rapido sul riconoscimento vocale.

Identificazione della lingua

Con l'identificazione della lingua è possibile rilevare la lingua della stringa di chat inviata dal giocatore.

Traduzione vocale

Poiché non è insolito che nella stessa sessione di gioco vengano parlate lingue diverse, i giocatori potrebbero gradire il fatto di ricevere sia il messaggio originale sia la traduzione. È possibile usare la traduzione vocale per tradurre testo tra lingue diverse, in modo da consentire a giocatori in tutto il mondo di comunicare nella propria madrelingua.

Per un esempio, vedere la guida di avvio rapido sulla traduzione vocale.

Nota

Oltre al servizio Voce, è possibile usare anche il servizio Traduttore. Per eseguire la traduzione testuale in tempo reale tra le lingue di origine e di destinazione supportate, vedere Traduzione testuale.

Passaggi successivi