Che cos'è la traduzione vocale?

2025-03-10

Questo articolo illustra i vantaggi e le funzionalità della traduzione con Riconoscimento vocale di Intelligenza artificiale di Azure. Il servizio Voce supporta la traduzione in tempo reale e in più lingue della sintesi vocale e della sintesi vocale dei flussi audio

Usando Speech SDK o l'interfaccia della riga di comando di Voce è possibile consentire ad applicazioni, strumenti e dispositivi di accedere alle trascrizioni di origine e agli output di traduzione per l'audio fornito. I risultati della trascrizione e della traduzione provvisorie vengono restituiti quando viene rilevato il parlato e i risultati finali possono essere convertiti in sintesi vocale.

Per un elenco delle lingue supportate per la traduzione vocale, vedere Lingue e voci supportate.

Suggerimento

Passare a Traduzione vocale: testare e tradurre rapidamente il parlato in altre lingue con bassa latenza.

Funzionalità di base

Le funzionalità principali della traduzione vocale includono:

Traduzione da voce in testo scritto
Traduzione vocale
Traduzione vocale multilingue automatica
Traduzione vocale multilingue automatica

Traduzione da voce in testo scritto

La funzionalità standard offerta dal servizio Voce è la possibilità di inserire un flusso audio di input nella lingua di origine specificata e di convertirla e restituire come testo nella lingua di destinazione specificata.

Traduzione vocale

Come supplemento alla funzionalità precedente, il servizio Voce offre anche la possibilità di leggere ad alta voce il testo tradotto usando il nostro grande database di voci con training preliminare, consentendo un output naturale della voce di input.

Traduzione vocale multilingue automatica

La traduzione vocale multilingue implementa un nuovo livello di tecnologia di traduzione vocale che sblocca varie funzionalità, tra cui la mancata lingua di input specificata e la gestione delle opzioni della lingua all'interno della stessa session e il supporto di traduzioni in streaming live in inglese. Queste funzionalità consentono un nuovo livello di poteri di traduzione vocale che possono essere implementati nei prodotti.

Lingua di input non specificata. La traduzione vocale multilingue può ricevere audio in un'ampia gamma di lingue e non è necessario specificare la lingua di input prevista.
Cambio di lingua. La traduzione vocale multilingue consente di parlare in più lingue durante la stessa sessione e di tradurle tutte nella stessa lingua di destinazione. Non è necessario riavviare una sessione quando cambia la lingua di input o l’utente intraprende una qualsiasi altra azione.
Trascrizione. Il servizio restituisce una trascrizione nella lingua di destinazione specificata. La trascrizione della lingua di origine non è ancora disponibile.

I casi d'uso della traduzione vocale in più lingue includono:

Interprete di viaggio. Quando si viaggia all'estero, la traduzione vocale multilingue offre la possibilità di creare una soluzione che consente ai clienti di tradurre qualsiasi audio di input da e verso la lingua locale. Ciò consente loro di comunicare con la gente del posto e di comprendere meglio i loro dintorni.
Riunione aziendale. In un incontro con persone che parlano lingue diverse, la traduzione vocale multilingue consente ai membri della riunione di comunicare tra loro naturalmente come se non vi fosse alcuna barriera linguistica.

Per un elenco delle lingue di input (origine) supportate, vedere la documentazione relativa alla sintesi vocale nelle lingue del testo. Per un elenco delle lingue di output supportate (destinazione), vedere la tabella Traduci in lingua testuale nella documentazione relativa alle lingue di traduzione vocale.

Per altre informazioni sulla traduzione vocale multilingue, vedere la traduzione vocale come guidare e esempi di traduzione vocale in GitHub.

Traduzione vocale multilingue automatica

Negli scenari in cui si vuole ottenere l'output in più lingue, il servizio Voce offre direttamente la possibilità di tradurre la lingua di input in due lingue di destinazione. In questo modo è possibile ricevere due output e condividere queste traduzioni a un pubblico più ampio con una singola chiamata API. Se sono necessarie più lingue di output, è possibile creare una risorsa multiservizio o usare servizi di traduzione separati.

Se è necessaria la traduzione in più di due lingue di destinazione, è necessario creare una risorsa di Ai Foundry o usare servizi di traduzione separati per più lingue oltre il secondo. Se si sceglie di chiamare il servizio di traduzione vocale con una risorsa multiservizio, le tariffe di traduzione si applicano per ogni lingua oltre il secondo, in base al numero di caratteri della traduzione.

Per calcolare la tariffa di traduzione applicata, vedere prezzi di Traduttore per Azure AI.

Prezzi per traduzione vocale multilingue automatica

È importante notare che il servizio di traduzione vocale opera in tempo reale e i risultati vocali intermedi vengono convertiti per generare risultati di traduzione intermedia. Di conseguenza, l'effettiva quantità di traduzione è maggiore dei token dell'audio di input. Vengono addebitati i costi per il riconoscimento vocale e la traduzione testuale per ogni lingua di destinazione.

Supponiamo, ad esempio, di voler eseguire traduzioni di testo da un file audio di un'ora a tre lingue di destinazione. Se la trascrizione vocale iniziale contiene 10.000 caratteri, potrebbero essere addebitati 2,80 $.

Avviso

Questi esempi vengono forniti esclusivamente a scopo illustrativo. Per informazioni aggiornate sui prezzi, vedere Voce di Azure AI e prezzi di Traduttore per Azure AI.

Il prezzo di esempio precedente di 2,80 $ è stato calcolato combinando il parlato alla trascrizione del testo e i costi di traduzione testuale. Ecco come è stato eseguito il calcolo:

Il prezzo di listino della traduzione vocale è di 2,50 $ all'ora, coprendo fino a 2 lingue di destinazione. Il prezzo viene usato come esempio di calcolo dei costi. Per informazioni sui prezzi più up-to-date, vedere StandardSpeech>Translation Standard> nella tabella dei prezzi di Riconoscimento vocale di Azure per intelligenza artificiale di Azure.
Il costo per la terza traduzione in lingua è 30 centesimi in questo esempio. Il prezzo del listino traduzioni è di 10 $ per milione di caratteri. Poiché il file audio contiene 10.000 caratteri, il costo della traduzione è 10 $ * 10.000 / 1.000.000 * 3 = 0,3 $. Il numero "3" in questa equazione rappresenta un coefficiente di ponderazione del traffico intermedio, che può variare a seconda delle lingue coinvolte. Il prezzo viene usato come esempio di calcolo dei costi. Per informazioni sui prezzi più up-to-date, vedere Traduzione testualestandard>>nellatabella dei prezzi di Azure AI Translator.

Operazioni preliminari

Per iniziare, provare la Guida di avvio rapido sulla traduzione vocale. Il servizio di traduzione vocale è disponibile tramite Speech SDK e l'interfaccia della riga di comando di Voce.

Su GitHub sono disponibili esempi di riconoscimento vocale e traduzione di Speech SDK. Questi esempi esaminano scenari comuni come la lettura di audio da un file o un flusso, la traduzione e il riconoscimento continuo e singolo e l'uso di modelli personalizzati.

Passaggi successivi

Provare la Guida di avvio rapido sulla traduzione vocale
Installare Speech SDK
Installare l'l'interfaccia della riga di comando per Voce

Condividi tramite

Che cos'è la traduzione vocale?

Funzionalità di base

Traduzione da voce in testo scritto

Traduzione vocale

Traduzione vocale multilingue automatica

Traduzione vocale multilingue automatica

Prezzi per traduzione vocale multilingue automatica

Operazioni preliminari

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive