Che cos'è la traduzione vocale?

Articolo
05/01/2024

Questo articolo illustra i vantaggi e le funzionalità della traduzione con Riconoscimento vocale di Intelligenza artificiale di Azure. Il servizio Voce supporta la traduzione vocale in tempo reale e multilingue per la sintesi vocale e la traduzione vocale dei flussi audio.

Usando Speech SDK o l'interfaccia della riga di comando di Voce è possibile consentire ad applicazioni, strumenti e dispositivi di accedere alle trascrizioni di origine e agli output di traduzione per l'audio fornito. I risultati della trascrizione e della traduzione provvisorie vengono restituiti quando viene rilevato il parlato e i risultati finali possono essere convertiti in sintesi vocale.

Per un elenco delle lingue supportate per la traduzione vocale, vedere Lingue e voci supportate.

Suggerimento

Passare a Speech Studio per testare e tradurre rapidamente la voce in altre lingue di propria scelta con bassa latenza.

Funzionalità di base

Le funzionalità principali della traduzione vocale includono:

Traduzione vocale in testo
Traduzione vocale
Traduzione vocale multilingue
Traduzione di più lingue di destinazione

Traduzione da voce in testo scritto

La funzionalità standard offerta dal servizio Voce è la possibilità di inserire un flusso audio di input nella lingua di origine specificata e di convertirla e restituire come testo nella lingua di destinazione specificata.

Traduzione vocale

Come supplemento alla funzionalità precedente, il servizio Voce offre anche la possibilità di leggere ad alta voce il testo tradotto usando il nostro grande database di voci con training preliminare, consentendo un output naturale della voce di input.

Traduzione vocale multilingue (anteprima)

La traduzione vocale multilingue implementa un nuovo livello di tecnologia di traduzione vocale che sblocca varie funzionalità, tra cui la non presenza di una lingua di input specificata, la gestione delle opzioni della lingua all'interno della stessa sessione e il supporto di traduzioni in streaming live in inglese. Queste funzionalità consentono un nuovo livello di poteri di traduzione vocale che possono essere implementati nei prodotti.

Lingua di input non specificata. La traduzione vocale multilingue può ricevere audio in un'ampia gamma di lingue e non è necessario specificare la lingua di input prevista.
Cambio di lingua. La traduzione vocale multilingue consente di pronunciare più lingue durante la stessa sessione e di convertirle tutte nella stessa lingua di destinazione. Non è necessario riavviare una sessione quando la lingua di input cambia o qualsiasi altra azione da parte dell'utente.
Trascrizione. Il servizio restituisce una trascrizione nella lingua di destinazione specificata. La trascrizione della lingua di origine non è ancora disponibile.

Alcuni casi d'uso per la traduzione vocale multilingue includono:

Interprete di viaggio. Quando si viaggia all'estero, la traduzione vocale multilingue offre la possibilità di creare una soluzione che consente ai clienti di tradurre qualsiasi audio di input da e verso la lingua locale. Ciò consente loro di comunicare con la gente del posto e di comprendere meglio i loro dintorni.
Riunione aziendale. In un incontro con persone che parlano lingue diverse, la traduzione vocale multilingue consente ai membri della riunione di comunicare tra loro naturalmente come se non vi fosse alcuna barriera linguistica.

Per la traduzione vocale multilingue, queste sono le lingue che il servizio Voce può rilevare e passare automaticamente dall'input: arabo (ar), basco (eu), bosniaco (bs), bulgaro (bg), cinese semplificato (zh), cinese tradizionale (zhh), ceco (cs), danese (da), olandese (nl), inglese (en), estone (et), finlandese (fi), francese (fr), galiziano (gl), tedesco (de), greco (el), hindi (hi), Ungherese (hu), indonesiano (id), italiano (it), giapponese (ja), coreano (ko), lettone (lv), lituano (lt), macedone (mk), norvegese (nb), polacco (pl), portoghese (pt), romeno (ro), russo (ru), serbo (sr), slovacco (sk), sloveno (sl), spagnolo (es), svedese (sv), thai (th), turco (tr), ucraino (uk), vietnamita (vi) e gallese (cy).

Per un elenco delle lingue di output supportate (destinazione), vedere la tabella Traduzione in lingua di testo nella documentazione relativa al supporto vocale e alla lingua.

Per altre informazioni sulla traduzione vocale multilingue, vedere gli esempi di traduzione vocale per la guida e la traduzione vocale in GitHub.

Traduzione di più lingue di destinazione

Negli scenari in cui si vuole ottenere l'output in più lingue, il servizio Voce offre direttamente la possibilità di tradurre la lingua di input in due lingue di destinazione. In questo modo è possibile ricevere due output e condividere queste traduzioni a un pubblico più ampio con una singola chiamata API. Se sono necessarie più lingue di output, è possibile creare una risorsa multiservizio o usare servizi di traduzione separati.

Se è necessaria la traduzione in più di due lingue di destinazione, è necessario creare una risorsa multiservizio o usare servizi di traduzione separati per più lingue oltre il secondo. Se si sceglie di chiamare il servizio di traduzione vocale con una risorsa multiservizio, si noti che le tariffe di traduzione si applicano per ogni lingua oltre il secondo, in base al numero di caratteri della traduzione.

Per calcolare la tariffa di traduzione applicata, vedere Prezzi Traduttore per intelligenza artificiale di Azure.

Prezzi per la traduzione in più lingue di destinazione

È importante notare che il servizio di traduzione vocale opera in tempo reale e i risultati vocali intermedi vengono convertiti per generare risultati di traduzione intermedia. Di conseguenza, l'effettiva quantità di traduzione è maggiore dei token dell'audio di input. Vengono addebitati i costi per la trascrizione vocale e la traduzione testuale per ogni lingua di destinazione.

Si supponga, ad esempio, di voler eseguire traduzioni di testo da un file audio di un'ora a tre lingue di destinazione. Se la trascrizione vocale iniziale contiene 10.000 caratteri, potrebbe essere addebitato $ 2,80.

Avviso

I prezzi in questo esempio sono solo a scopo illustrativo. Per informazioni sui prezzi più aggiornati, vedere Prezzi di Riconoscimento vocale di Azure e prezzi di Azure AI Traduttore.

Il prezzo di esempio precedente di $ 2,80 è stato calcolato combinando il parlato alla trascrizione del testo e i costi di traduzione testuale. Ecco come è stato eseguito il calcolo:

Il prezzo di listino della traduzione vocale è di $ 2,50 all'ora, coprendo fino a 2 lingue di destinazione. Il prezzo viene usato come esempio di come calcolare i costi. Per informazioni sui prezzi più aggiornate, vedere Pay as You Go>Speech>Standard (Pagamento con pagamento in base al consumo standard) nella tabella dei prezzi di Riconoscimento vocale di Azure per intelligenza artificiale di Azure.
Il costo per la terza traduzione in lingua è 30 centesimi in questo esempio. Il prezzo del listino traduzioni è di $ 10 per milione di caratteri. Poiché il file audio contiene 10.000 caratteri, il costo della traduzione è $ 10 * 10.000 / 1.000.000 * 3 = $ 0,3. Il numero "3" in questa equazione rappresenta un coefficiente di ponderazione del traffico intermedio, che può variare a seconda delle lingue coinvolte. Il prezzo viene usato come esempio di come calcolare i costi. Per informazioni sui prezzi più aggiornate, vedere La>traduzione> testuale con pagamento in base al consumo nella tabella dei prezzi di Azure AI Traduttore.

Operazioni preliminari

Come primo passaggio, provare la guida introduttiva alla traduzione vocale. Il servizio di traduzione vocale è disponibile tramite Speech SDK e l'interfaccia della riga di comando di Voce.

Su GitHub sono disponibili esempi di riconoscimento vocale e traduzione di Speech SDK. Questi esempi esaminano scenari comuni come la lettura di audio da un file o un flusso, la traduzione e il riconoscimento continuo e singolo e l'uso di modelli personalizzati.

Passaggi successivi

Provare la Guida di avvio rapido sulla traduzione vocale
Installare Speech SDK
Installare l'l'interfaccia della riga di comando per Voce